Re: [鬥蟲] 讓各種LLM打小丑牌比誰活最久

看板C_Chat作者raincole (冷魚)時間2天前 (2026/02/06 13:38)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串2/2 (看更多)

※ 引述《h0103661 (單推人) 每日換婆 (1/1)》之銘言： : 現在正在直播測試凌晨發表的Claude Opus 4.6 : https://www.twitch.tv/S1M0N38 : 目前的排行榜 : https://i.meee.com.tw/8Mpu5U5.png

: Gemini 3.0 Pro 是第一名 : GPT 5.2 緊追在後 : Deepseek V3.2 則是開源模型的第一名 : 但開源模型跟前段班有不小的差距 : 有興趣的可以進網站看數據 : 所有提示詞、記憶、出牌過程都有紀錄 : 想試試的也可以下載開源mod自己打看看 : 挺有趣的 : 賽博鬥蛐蛐看推文好像有人誤解了這裡排行榜上的 round 是打倒幾個盲注而已不是底注所有的測試都是測到底注8過關而已所以 Gemini 的平均 19 round 其實只是有時候以正常的 24 round 過關的結果 (但不得不說這已經比我想像中強太多了，畢竟這是通用 LLM 不是專門訓練來打小丑牌) 另外包括 Deepseek 在內的開源模型是完全過不了關，根本玩不明白 Deepseek 最慘的一場在第二回合手上有四張黑桃還堅持要做順然後就沒有然後了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.163.102 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1770356313.A.FA8.html ※ 編輯: raincole (123.240.163.102 臺灣), 02/06/2026 13:39:16 ※ 編輯: raincole (123.240.163.102 臺灣), 02/06/2026 13:39:38

‣ 返回看板[ C_Chat ] 閒談

‣ 更多 raincole 的文章

文章代碼(AID): #1fXNvP-e (C_Chat)