[其他] First Proof 數學難題測試結果

看板Math作者 (靠近邊緣)時間1天前 (2026/02/14 16:39), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
https://1stproof.org/#about https://arxiv.org/abs/2602.05192 上禮拜一群頂尖數學家在 arXiv 上發了一篇叫做 First Proof 的文章, 作者包含: Martin Hairer(Fields Medal) Daniel Spielman Nikhil Srivastava Lauren Williams 等十幾位不同領域的學者。 所謂「First Proof」(初次發酵),取自烘焙術語,意指在將麵團分割塑形前,先讓整團 麵團進行關鍵的發酵。這個專案就像是讓這些難題在數學界先發酵,以便發展出一套更客觀 、真實的方法來評估 AI 的能力 這不是一般 benchmark,而是他們自己研究過程中自然產生、但還沒公開發表的研究級數學 問題。 全部都是研究論文等級。 而且每題都滿足: 可以在五頁內證完 但不是 trivial lemma 目前網路上找不到答案(避免資料污染) 他們測的是: GPT-5.2 Pro Gemini 3.0 Deep Think 而且原則上只給一次機會,不反覆提示優化。 報告重點整理 一、 結論: 很會裝懂,但容易幻覺 對於非專家來說,AI 生成的證明看起來非常專業,很難分辨對錯。AI 的表現呈現兩極化: 在需要結構化計算的領域表現出色,但在需要嚴謹邏輯推導的領域很容易產生「幻覺」(Ha llucinations)。 二、 AI 的典型翻車案例: 1. 瞎掰文獻與論證 (Hallucinations) 在 Andrew Blumberg 出的第 5 題(切片過濾問題),AI 為了完成證明,直接編造了不存 在的引理,甚至虛構了一整篇論文來支持自己的論點。 2. 偷換概念與無視規則 Lauren Williams 出的第 3 題(馬爾可夫鏈),題目特別限制「不能使用平凡解(trivial solution)」。結果 AI 給出的最佳解就是用了題目明確禁止的 Metropolis-Hastings 演 算法。AI 很傾向將複雜難題自己替換成已解決的簡易版。 3. 引用錯誤的草稿 Fields 獎得主 Martin Hairer 出的第 1 題 (\Phi^3_4 測度)。AI 引用了作者網站上一份 未發表的粗略草稿,宣稱裡面有詳細證明。但 AI 根據那個草稿推導出的結論(測度等價) 甚至是錯的(正確答案是互為奇異/mutually singular)。 三、 AI 的高光時刻 (令人驚豔的突破) 有兩題 AI 的表現嚇到了出題者: 1. 第 9 題:代數關係 (Joe Kileel) 這題要求構造特定的多項式映射。AI (NoInternet 版本) 給出了一個「本質上正確」的答 案!雖然 AI 的證明過程跟作者不同,但結論是正確的。 2. 第 10 題:張量分解優化 (Tamara Kolda) —— 全場 MVP 這題是關於非對齊張量的 CP 分解。出題者 Tamara Kolda 表示,AI 給出的解答是正確的 ,而且比她自己提供的原始解答更好!AI 提出了一種降低計算複雜度的方法,讓人類作者 承認「AI 的洞察力事後看來很明顯,但我當時沒想到」。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.52.164.248 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1771058376.A.273.html
文章代碼(AID): #1fa3J89p (Math)