[其他] Semi-Autonomous Mathematics Discovery

看板Math作者Bugquan (靠近邊緣)時間1周前 (2026/02/02 16:19)推噓1(1推 0噓 0→)

留言1則, 1人參與討論串1/1

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdos Pro blems https://arxiv.org/abs/2601.22401 最近 Google DeepMind 和多所大學合作發表了一篇論文，他們拿 Gemini 的數學特化版模型（代號 Aletheia），去挑戰數學界著名的「Erdos Problems」。 https://www.erdosproblems.com/ 他們流程大概是： 700 個開放問題 ↓ Aletheia AI 代理 200 個候選解決方案 ↓ 初步人工篩選 63 個技術上正確的響應 ↓ 專家數學家評估 13 個有意義的正確響應（6.5%）剩下的那 50 題雖然邏輯沒錯，但大多是因為題目定義不清或鑽漏洞，導致 AI 給出了正確但無聊的廢話解答。也就是說： ‧68% 是根本錯的 ‧31% 技術上對，但多半解錯版本或解了沒意義的東西 ‧真正對到 Erdos 原意的，只有 6.5% 這 13 個成功的案例可以分成幾類： ‧自主解決 (Autonomous)：有 2 題（Erdos-652, 1051）是 AI 真的提出了解法。其中 1 051 題 AI 用了級數尾部和 Mahler 判別法，被認為是比較有水準的發揮。 ‧文獻考古 (Literature Identification)：有 5 題其實人類早就解出來了，只是因為年代久遠或太冷門，資料庫沒更新。AI 的功勞是把它們從舊論文堆裡挖出來，告訴大家這題已經被解了。 ‧重新發現 (Independent Rediscovery)：有 3 題 AI 自己導出了證明，但後來發現人類其實也解過。 ‧部分解決：有 3 題解出了多小題組中的其中一題。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.14.0.118 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1770020389.A.2CD.html ※ 編輯: Bugquan (39.14.0.118 臺灣), 02/02/2026 16:20:24 ※ 編輯: Bugquan (39.14.0.118 臺灣), 02/02/2026 16:40:37 ※ 編輯: Bugquan (39.14.0.118 臺灣), 02/02/2026 16:49:37

推

arrenwu

02/02 17:36, 1周前 , 1^F

02/02 17:36, 1^F

‣ 返回看板[ Math ] 數學

‣ 更多 Bugquan 的文章

文章代碼(AID): #1fW5ubBD (Math)