Re: [鬥蟲] 讓各種LLM打小丑牌比誰活最久

看板C_Chat作者 (冷魚)時間2天前 (2026/02/06 13:38), 2天前編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/2 (看更多)
※ 引述《h0103661 (單推人) 每日換婆 (1/1)》之銘言: : 現在正在直播測試凌晨發表的Claude Opus 4.6 : https://www.twitch.tv/S1M0N38 : 目前的排行榜 : https://i.meee.com.tw/8Mpu5U5.png
: Gemini 3.0 Pro 是第一名 : GPT 5.2 緊追在後 : Deepseek V3.2 則是開源模型的第一名 : 但開源模型跟前段班有不小的差距 : 有興趣的可以進網站看數據 : 所有提示詞、記憶、出牌過程都有紀錄 : 想試試的也可以下載開源mod自己打看看 : 挺有趣的 : 賽博鬥蛐蛐 看推文好像有人誤解了 這裡排行榜上的 round 是打倒幾個盲注而已 不是底注 所有的測試都是測到底注8過關而已 所以 Gemini 的平均 19 round 其實只是有時候以正常的 24 round 過關的結果 (但不得不說這已經比我想像中強太多了,畢竟這是通用 LLM 不是專門訓練來打小丑牌) 另外包括 Deepseek 在內的開源模型是完全過不了關,根本玩不明白 Deepseek 最慘的一場在第二回合手上有四張黑桃還堅持要做順 然後就沒有然後了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.163.102 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1770356313.A.FA8.html ※ 編輯: raincole (123.240.163.102 臺灣), 02/06/2026 13:39:16 ※ 編輯: raincole (123.240.163.102 臺灣), 02/06/2026 13:39:38
文章代碼(AID): #1fXNvP-e (C_Chat)
文章代碼(AID): #1fXNvP-e (C_Chat)