[其他] First Proof 數學難題測試結果
https://1stproof.org/#about
https://arxiv.org/abs/2602.05192
上禮拜一群頂尖數學家在 arXiv 上發了一篇叫做 First Proof 的文章,
作者包含:
Martin Hairer(Fields Medal)
Daniel Spielman
Nikhil Srivastava
Lauren Williams
等十幾位不同領域的學者。
所謂「First Proof」(初次發酵),取自烘焙術語,意指在將麵團分割塑形前,先讓整團
麵團進行關鍵的發酵。這個專案就像是讓這些難題在數學界先發酵,以便發展出一套更客觀
、真實的方法來評估 AI 的能力
這不是一般 benchmark,而是他們自己研究過程中自然產生、但還沒公開發表的研究級數學
問題。
全部都是研究論文等級。
而且每題都滿足:
可以在五頁內證完
但不是 trivial lemma
目前網路上找不到答案(避免資料污染)
他們測的是:
GPT-5.2 Pro
Gemini 3.0 Deep Think
而且原則上只給一次機會,不反覆提示優化。
報告重點整理
一、 結論:
很會裝懂,但容易幻覺
對於非專家來說,AI 生成的證明看起來非常專業,很難分辨對錯。AI 的表現呈現兩極化:
在需要結構化計算的領域表現出色,但在需要嚴謹邏輯推導的領域很容易產生「幻覺」(Ha
llucinations)。
二、 AI 的典型翻車案例:
1. 瞎掰文獻與論證 (Hallucinations)
在 Andrew Blumberg 出的第 5 題(切片過濾問題),AI 為了完成證明,直接編造了不存
在的引理,甚至虛構了一整篇論文來支持自己的論點。
2. 偷換概念與無視規則
Lauren Williams 出的第 3 題(馬爾可夫鏈),題目特別限制「不能使用平凡解(trivial
solution)」。結果 AI 給出的最佳解就是用了題目明確禁止的 Metropolis-Hastings 演
算法。AI 很傾向將複雜難題自己替換成已解決的簡易版。
3. 引用錯誤的草稿
Fields 獎得主 Martin Hairer 出的第 1 題 (\Phi^3_4 測度)。AI 引用了作者網站上一份
未發表的粗略草稿,宣稱裡面有詳細證明。但 AI 根據那個草稿推導出的結論(測度等價)
甚至是錯的(正確答案是互為奇異/mutually singular)。
三、 AI 的高光時刻 (令人驚豔的突破)
有兩題 AI 的表現嚇到了出題者:
1. 第 9 題:代數關係 (Joe Kileel)
這題要求構造特定的多項式映射。AI (NoInternet 版本) 給出了一個「本質上正確」的答
案!雖然 AI 的證明過程跟作者不同,但結論是正確的。
2. 第 10 題:張量分解優化 (Tamara Kolda) —— 全場 MVP
這題是關於非對齊張量的 CP 分解。出題者 Tamara Kolda 表示,AI 給出的解答是正確的
,而且比她自己提供的原始解答更好!AI 提出了一種降低計算複雜度的方法,讓人類作者
承認「AI 的洞察力事後看來很明顯,但我當時沒想到」。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.52.164.248 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Math/M.1771058376.A.273.html