[討論] Claude Mythos SWE bench verify 93.9%
4/7 Anthropic發布地表最強模型
Claude Mythos
直接把opus 4.6按在地上磨擦
https://eu.36kr.com/zh/p/3757764949213698
五項SWE bench都超越原本的opus 4.6 10~20%
但Anthropic不打算發布此一模型
因為更驚人的是他在偵測資安漏洞的表現
83.1%
另外還發生過逃脫沙盒,刪除git history和日誌,以及裝笨的情況
Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟
聯合監督這一地表最強模型
以防模型遭到不法份子濫用
Opus 4.6已經在各個開源軟件找到數百個弱點
Mythos找到了數千個
包含
OpenBSD 20年以上史詩級漏洞
FFmpeg 16年以上漏洞,500次Fuzz沒發現,官方推特公開感謝Anthropic推送補丁
目前只有以下公司有權使用Mythos
AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google
Nvidia PaloAlto 等等
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.67.113 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1775655045.A.22B.html
推
04/08 22:42,
2天前
, 1F
04/08 22:42, 1F
推
04/08 23:26,
2天前
, 2F
04/08 23:26, 2F
推
04/09 02:07,
1天前
, 3F
04/09 02:07, 3F
推
04/09 05:45,
1天前
, 4F
04/09 05:45, 4F
→
04/09 06:43,
1天前
, 5F
04/09 06:43, 5F
推
04/09 07:36,
1天前
, 6F
04/09 07:36, 6F
推
04/09 09:41,
1天前
, 7F
04/09 09:41, 7F
→
04/09 09:55,
1天前
, 8F
04/09 09:55, 8F
→
04/09 09:55,
1天前
, 9F
04/09 09:55, 9F
→
04/09 09:57,
1天前
, 10F
04/09 09:57, 10F
→
04/09 09:57,
1天前
, 11F
04/09 09:57, 11F
→
04/09 09:58,
1天前
, 12F
04/09 09:58, 12F
→
04/09 09:59,
1天前
, 13F
04/09 09:59, 13F
推
04/09 12:09,
1天前
, 14F
04/09 12:09, 14F
→
04/09 12:10,
1天前
, 15F
04/09 12:10, 15F
→
04/09 12:11,
1天前
, 16F
04/09 12:11, 16F
→
04/09 12:52,
1天前
, 17F
04/09 12:52, 17F
→
04/09 12:53,
1天前
, 18F
04/09 12:53, 18F
→
04/09 13:28,
1天前
, 19F
04/09 13:28, 19F
推
04/09 13:59,
1天前
, 20F
04/09 13:59, 20F
→
04/09 14:56,
1天前
, 21F
04/09 14:56, 21F
→
04/10 02:04,
22小時前
, 22F
04/10 02:04, 22F
推
04/10 18:04,
6小時前
, 23F
04/10 18:04, 23F
討論串 (同標題文章)