[其他] Semi-Autonomous Mathematics Discovery
Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdos Pro
blems
https://arxiv.org/abs/2601.22401
最近 Google DeepMind 和多所大學合作發表了一篇論文,他們拿 Gemini 的數學特化版模
型(代號 Aletheia),去挑戰數學界著名的「Erdos Problems」。
https://www.erdosproblems.com/
他們流程大概是:
700 個開放問題
↓ Aletheia AI 代理
200 個候選解決方案
↓ 初步人工篩選
63 個技術上正確的響應
↓ 專家數學家評估
13 個有意義的正確響應(6.5%)
剩下的那 50 題雖然邏輯沒錯,但大多是因為題目定義不清或鑽漏洞,導致 AI 給出了正確
但無聊的廢話解答。
也就是說:
‧68% 是根本錯的
‧31% 技術上對,但多半解錯版本或解了沒意義的東西
‧真正對到 Erdos 原意的,只有 6.5%
這 13 個成功的案例可以分成幾類:
‧自主解決 (Autonomous):有 2 題(Erdos-652, 1051)是 AI 真的提出了解法。其中 1
051 題 AI 用了級數尾部和 Mahler 判別法,被認為是比較有水準的發揮。
‧文獻考古 (Literature Identification):有 5 題其實人類早就解出來了,只是因為年
代久遠或太冷門,資料庫沒更新。AI 的功勞是把它們從舊論文堆裡挖出來,告訴大家這題
已經被解了。
‧重新發現 (Independent Rediscovery):有 3 題 AI 自己導出了證明,但後來發現人類
其實也解過。
‧部分解決:有 3 題解出了多小題組中的其中一題。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.14.0.118 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Math/M.1770020389.A.2CD.html
※ 編輯: Bugquan (39.14.0.118 臺灣), 02/02/2026 16:20:24
※ 編輯: Bugquan (39.14.0.118 臺灣), 02/02/2026 16:40:37
※ 編輯: Bugquan (39.14.0.118 臺灣), 02/02/2026 16:49:37
推
02/02 17:36,
1周前
, 1F
02/02 17:36, 1F