[其他] First Proof 數學難題測試結果

看板Math作者Bugquan (靠近邊緣)時間1天前 (2026/02/14 16:39)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

https://1stproof.org/#about https://arxiv.org/abs/2602.05192 上禮拜一群頂尖數學家在 arXiv 上發了一篇叫做 First Proof 的文章，作者包含： Martin Hairer（Fields Medal） Daniel Spielman Nikhil Srivastava Lauren Williams 等十幾位不同領域的學者。所謂「First Proof」（初次發酵），取自烘焙術語，意指在將麵團分割塑形前，先讓整團麵團進行關鍵的發酵。這個專案就像是讓這些難題在數學界先發酵，以便發展出一套更客觀、真實的方法來評估 AI 的能力這不是一般 benchmark，而是他們自己研究過程中自然產生、但還沒公開發表的研究級數學問題。全部都是研究論文等級。而且每題都滿足：可以在五頁內證完但不是 trivial lemma 目前網路上找不到答案（避免資料污染）他們測的是： GPT-5.2 Pro Gemini 3.0 Deep Think 而且原則上只給一次機會，不反覆提示優化。報告重點整理一、結論：很會裝懂，但容易幻覺對於非專家來說，AI 生成的證明看起來非常專業，很難分辨對錯。AI 的表現呈現兩極化：在需要結構化計算的領域表現出色，但在需要嚴謹邏輯推導的領域很容易產生「幻覺」（Ha llucinations）。二、 AI 的典型翻車案例： 1. 瞎掰文獻與論證 (Hallucinations) 在 Andrew Blumberg 出的第 5 題（切片過濾問題），AI 為了完成證明，直接編造了不存在的引理，甚至虛構了一整篇論文來支持自己的論點。 2. 偷換概念與無視規則 Lauren Williams 出的第 3 題（馬爾可夫鏈），題目特別限制「不能使用平凡解（trivial solution）」。結果 AI 給出的最佳解就是用了題目明確禁止的 Metropolis-Hastings 演算法。AI 很傾向將複雜難題自己替換成已解決的簡易版。 3. 引用錯誤的草稿 Fields 獎得主 Martin Hairer 出的第 1 題 (\Phi^3_4 測度)。AI 引用了作者網站上一份未發表的粗略草稿，宣稱裡面有詳細證明。但 AI 根據那個草稿推導出的結論（測度等價）甚至是錯的（正確答案是互為奇異/mutually singular）。三、 AI 的高光時刻 (令人驚豔的突破) 有兩題 AI 的表現嚇到了出題者： 1. 第 9 題：代數關係 (Joe Kileel) 這題要求構造特定的多項式映射。AI (NoInternet 版本) 給出了一個「本質上正確」的答案！雖然 AI 的證明過程跟作者不同，但結論是正確的。 2. 第 10 題：張量分解優化 (Tamara Kolda) —— 全場 MVP 這題是關於非對齊張量的 CP 分解。出題者 Tamara Kolda 表示，AI 給出的解答是正確的，而且比她自己提供的原始解答更好！AI 提出了一種降低計算複雜度的方法，讓人類作者承認「AI 的洞察力事後看來很明顯，但我當時沒想到」。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.52.164.248 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1771058376.A.273.html

‣ 返回看板[ Math ] 數學

‣ 更多 Bugquan 的文章

文章代碼(AID): #1fa3J89p (Math)