[新聞]AI 模型越講越歪樓!最新研究發現:AI 對話愈深入,表現愈糟糕

看板Tech_Job作者 (pl132)時間7月前 (2025/05/23 09:18), 編輯推噓21(243155)
留言182則, 35人參與, 7月前最新討論串1/1
AI 模型越講越歪樓!最新研究發現:AI 對話愈深入,表現愈糟糕 https://tinyurl.com/ylvt36k2 人工智慧(AI)已經不是什麼遙不可及的未來科技,從寫作、翻譯到客服,它早就成為我 們工作與生活的一部分。但你有沒有發現一件事:剛開始和 AI 聊天時,它總是回答得頭 頭是道,讓人驚呼「也太聰明了吧!」 但一旦對話拉長、你問得更深入,AI就開始卡住、兜不回來,甚至出現自相矛盾的情況。 這並不是你遇到了Bug(程式錯誤),也不是你問得太難,而是一個所有語言模型都面臨 的通病。 根據Microsoft和Salesforce最新研究,這種越聊越不對勁的現象,其實是語言模型在對 話中普遍存在的結構性問題。研究團隊模擬了20萬筆對話,測試了包含GPT-4.1、Claude 3.7、Gemini 2.5 Pro在內的15種主流模型。 結果發現,這些模型在第一次對話中的表現非常出色,成功率高達90%;但一旦進入第二 次、第三次……成功率就像跳水般下降,只剩下約60%。更令人吃驚的是,這個問題幾乎 無法靠目前常見的技術調整解決,也讓人開始反思:我們所謂發展快速先進的AI,真的準 備好成為對話中的夥伴了嗎? AI對話為什麼越聊越糊塗? 你可能以為AI出錯,是因為它記不住前面的內容。但實際上,問題的關鍵不在記性不好, 而是「太急著表現」。研究指出,當語言模型在對話中接收到不完整的資訊時,它往往會 急著下結論,就像學生考試時還沒看完題目就開始寫答案。結果是,前面的假設錯了,後 面的邏輯也一路歪掉。不但無法修正,還會自我堅持,繼續補充一堆看似合理、其實錯得 離譜的細節。 這種現象讓人聯想到人類的「強辯」行為,但AI的版本更棘手,因為它不具備我們的懷疑 機制。我們人類如果說錯話,有時會停下來想想:「欸,好像不太對?」然後修正,但AI 模型目前還做不到這一點。它們無法意識到「我是不是不確定這件事?」一旦答錯,就一 路錯到底。 這也顯示一個關鍵問題:語言模型目前的設計邏輯,還是偏向一次性任務。可惜,現實中 的對話並不是這樣進行的。我們經常是一邊說、一邊釐清需求,問題是模糊的、資訊是漸 進式的。 改參數、加推理,為什麼都沒用? 遇到問題,工程師們當然會立刻想:「是不是參數設錯了?」於是研究團隊試了所有常見 的調整手段:調整溫度(temperature)參數(讓回答更保守或更冒險)、延長記憶長度 、提升推理模組的能力等等。但這些努力,幾乎都無法明顯改善模型在多輪對話中的表現 。換句話說,這不是模型參數調得不夠好,而是架構上的天生缺陷。 這背後的問題,其實出在訓練邏輯。過去語言模型的訓練大多使用單次問答的資料:一句 話問、一句話答,任務清楚、資訊完整。但實際生活中,深入多次對話才是常態,而且常 常一開始就資訊不清、問題不明。模型不習慣在模糊中摸索,就像一個只會背答案的學生 ,突然被拉去參加即興辯論比賽,自然是招架不住。 未來如果要讓AI成為真正的對話幫手,我們也許不能再把訓練重點放在「更準確地回答」 ,而要轉向訓練它「更懂得等待與釐清」。舉例來說,模型應該學會辨識使用者問題的不 確定性,並主動反問:「你是指這個意思嗎?還是那個?」也許它還該學會「不急著給答 案」,而是試著引導對話走向更清楚的方向。這才是對話真正的本質,而非只是問與答的 機械式循環。 這次的研究結果,打破了我們對語言模型的想像。表面上看,AI越來越能模仿人類語言、 理解語意,但當我們拉長對話、要求它「聽懂人話」,問題就浮現了。AI聰明沒錯,但還 不夠謙虛、不夠小心,也不夠願意說「我不知道」。這反而讓我們更理解了人類對話的精 妙之處:我們不只是會說話,而是懂得等對方說完,懂得保留模糊,也懂得在必要時改變 想法。 下一步的語言模型發展,或許該從「更會講」轉向「更會聽」;從「給答案」轉向「與人 探索」。要做到這一點,還有很長一段路要走,但這也正是我們讓科技真正貼近人性、創 造價值的關鍵所在。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.177.1.4 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1747963138.A.E43.html

05/23 09:20, 7月前 , 1F
AI泡沫 怕.jpg
05/23 09:20, 1F

05/23 09:22, 7月前 , 2F
魔鬼終結者要來了
05/23 09:22, 2F

05/23 09:39, 7月前 , 3F
雀食
05/23 09:39, 3F

05/23 09:43, 7月前 , 4F
好像有看了什麼, 但又像沒看了什麼
05/23 09:43, 4F

05/23 09:45, 7月前 , 5F
讓AI聽懂人話要很長一段路?當初說
05/23 09:45, 5F

05/23 09:45, 7月前 , 6F
要讓Siri聰明一點也說要很久,結果
05/23 09:45, 6F

05/23 09:45, 7月前 , 7F
各語言模型如雨後春筍問世,好了啦
05/23 09:45, 7F

05/23 09:45, 7月前 , 8F
記者
05/23 09:45, 8F

05/23 09:56, 7月前 , 9F
真人都會聽不懂人話或沒邏輯應答了
05/23 09:56, 9F

05/23 10:22, 7月前 , 10F
蹲的越久 腳就越麻
05/23 10:22, 10F

05/23 10:35, 7月前 , 11F
這篇AI寫的嗎
05/23 10:35, 11F

05/23 10:46, 7月前 , 12F
我也覺得這記者很讚
05/23 10:46, 12F

05/23 10:49, 7月前 , 13F
其實人更不會聽吧 還會反嗆陷害
05/23 10:49, 13F

05/23 10:50, 7月前 , 14F
AI你跟他說不對他馬上改口 我還覺得
05/23 10:50, 14F

05/23 10:50, 7月前 , 15F
他太會順著你太舔不準確
05/23 10:50, 15F

05/23 11:09, 7月前 , 16F
Siri 有聰明過嗎?
05/23 11:09, 16F

05/23 11:09, 7月前 , 17F
無聊。這話題已經大概是半年前的事
05/23 11:09, 17F

05/23 11:09, 7月前 , 18F
情了。最近有改善很多了啦
05/23 11:09, 18F

05/23 11:21, 7月前 , 19F
AI 就跟某些(國)人一樣 舔狗啊~
05/23 11:21, 19F

05/23 11:30, 7月前 , 20F
記者不要老是把「舊」聞當「新」聞
05/23 11:30, 20F

05/23 11:30, 7月前 , 21F
寫好嗎
05/23 11:30, 21F

05/23 11:30, 7月前 , 22F

05/23 11:58, 7月前 , 23F
人會說:乾我屁事 這鍋為什麼要我
05/23 11:58, 23F

05/23 11:58, 7月前 , 24F
揹 你去找其他人
05/23 11:58, 24F

05/23 12:19, 7月前 , 25F
人類需要的是方便的工具,而不是真
05/23 12:19, 25F

05/23 12:19, 7月前 , 26F
的新物種
05/23 12:19, 26F

05/23 13:22, 7月前 , 27F
蠻低能的文章 文組寫的不意外
05/23 13:22, 27F

05/23 13:23, 7月前 , 28F
感覺這記者還有將這個 比AI還智障
05/23 13:23, 28F

05/23 13:37, 7月前 , 29F
真人也是吧,講一講就不然你要投國
05/23 13:37, 29F

05/23 13:37, 7月前 , 30F
民黨?
05/23 13:37, 30F

05/23 13:44, 7月前 , 31F
人和人談到後面也是啦
05/23 13:44, 31F

05/23 13:48, 7月前 , 32F
Bert 時代就在講的東西撐過GPT用了
05/23 13:48, 32F

05/23 13:48, 7月前 , 33F
半個decade終於出現在文組的文章裡
05/23 13:48, 33F

05/23 13:48, 7月前 , 34F
,所以說工程師面對跟技術脫節或根
05/23 13:48, 34F

05/23 13:48, 7月前 , 35F
本非技術的主管永遠要記得他們的知
05/23 13:48, 35F

05/23 13:48, 7月前 , 36F
識永遠落後時代,但他們又有實權
05/23 13:48, 36F

05/23 13:59, 7月前 , 37F
這研究不是這個月才release的嗎 連
05/23 13:59, 37F

05/23 14:00, 7月前 , 38F
文章都不會點進去看 怎麼還好意思
05/23 14:00, 38F

05/23 14:00, 7月前 , 39F
嗆Zzz
05/23 14:00, 39F
還有 103 則推文
05/24 01:43, 7月前 , 143F
總結:2025年論文雖不是簡單重複202
05/24 01:43, 143F

05/24 01:43, 7月前 , 144F
4年的發現,而是將「迷失」現象推廣
05/24 01:43, 144F

05/24 01:43, 7月前 , 145F
到更貼近真實用戶互動的多輪對話場
05/24 01:43, 145F

05/24 01:43, 7月前 , 146F
景,並提出了新的評估指標與分析框
05/24 01:43, 146F

05/24 01:43, 7月前 , 147F
架,對LLM未來改進提出了更具體的挑
05/24 01:43, 147F

05/24 01:43, 7月前 , 148F
戰。
05/24 01:43, 148F

05/24 01:43, 7月前 , 149F
4. 總結對比表
05/24 01:43, 149F

05/24 01:43, 7月前 , 150F
概念延伸
05/24 01:43, 150F

05/24 01:43, 7月前 , 151F
LostInTheMiddle_2024
05/24 01:43, 151F

05/24 01:43, 7月前 , 152F
+主題: 長上下文資訊利用
05/24 01:43, 152F

05/24 01:43, 7月前 , 153F
+場景: 多文件QA, key-value檢索
05/24 01:43, 153F

05/24 01:43, 7月前 , 154F
+貢獻: 提出新評估協議
05/24 01:43, 154F

05/24 01:43, 7月前 , 155F
+現象: U型效應(首尾好,中間差)
05/24 01:43, 155F

05/24 01:43, 7月前 , 156F
LostInConversation_2025
05/24 01:43, 156F

05/24 01:43, 7月前 , 157F
+主題: 多輪對話下的可靠性
05/24 01:43, 157F

05/24 01:43, 7月前 , 158F
+現象: 多輪下表現大幅下降, 不穩定
05/24 01:43, 158F

05/24 01:43, 7月前 , 159F
性增加
05/24 01:43, 159F

05/24 01:43, 7月前 , 160F
+場景: 需求逐步揭露的多輪生成
05/24 01:43, 160F

05/24 01:43, 7月前 , 161F
+貢獻: 新指標(可靠性) : , 大規模
05/24 01:43, 161F

05/24 01:43, 7月前 , 162F
多模型多任務實驗, 失敗原因分析,
05/24 01:43, 162F

05/24 01:43, 7月前 , 163F
緩解策略測試
05/24 01:43, 163F

05/24 02:02, 7月前 , 164F
5. 結論
05/24 02:02, 164F

05/24 02:02, 7月前 , 165F
這兩篇論文不是講同一件事,但2025
05/24 02:02, 165F

05/24 02:02, 7月前 , 166F
年論文在2024年「長上下文迷失」的
05/24 02:02, 166F

05/24 02:02, 7月前 , 167F
基礎上,將問題推廣到「多輪對話」
05/24 02:02, 167F

05/24 02:02, 7月前 , 168F
這一更貼近實際應用的場景,並提出
05/24 02:02, 168F

05/24 02:02, 7月前 , 169F
了更多新的觀察、指標和挑戰。
05/24 02:02, 169F

05/24 02:02, 7月前 , 170F
2025年論文提出了更多論點與分析,
05/24 02:02, 170F

05/24 02:02, 7月前 , 171F
但目前尚未有徹底的解決方案,僅測
05/24 02:02, 171F

05/24 02:02, 7月前 , 172F
試了一些緩解方法,效果有限。
05/24 02:02, 172F

05/24 02:02, 7月前 , 173F
如果你關心LLM在真實對話應用中的可
05/24 02:02, 173F

05/24 02:02, 7月前 , 174F
靠性,2025年論文的貢獻更大、更具
05/24 02:02, 174F

05/24 02:02, 7月前 , 175F
啟發性。
05/24 02:02, 175F

05/24 02:03, 7月前 , 176F
我指的是「新」聞。不是翻譯。也不
05/24 02:03, 176F

05/24 02:04, 7月前 , 177F
是早知道的東西。
05/24 02:04, 177F

05/24 09:02, 7月前 , 178F
這篇真的讚。
05/24 09:02, 178F

05/24 14:57, 7月前 , 179F
很像小朋友啊
05/24 14:57, 179F

05/25 15:15, 7月前 , 180F
外行人看熱鬧 內行人看門道
05/25 15:15, 180F

05/26 03:06, 7月前 , 181F
就懂點皮毛,然後一本正經的胡說八
05/26 03:06, 181F

05/26 03:06, 7月前 , 182F
05/26 03:06, 182F
文章代碼(AID): #1eByq2v3 (Tech_Job)