Re: [鬥蟲] 讓各種LLM打小丑牌比誰活最久
※ 引述《h0103661 (單推人) 每日換婆 (1/1)》之銘言:
: 現在正在直播測試凌晨發表的Claude Opus 4.6
: https://www.twitch.tv/S1M0N38
: 目前的排行榜
: https://i.meee.com.tw/8Mpu5U5.png

: Gemini 3.0 Pro 是第一名
: GPT 5.2 緊追在後
: Deepseek V3.2 則是開源模型的第一名
: 但開源模型跟前段班有不小的差距
: 有興趣的可以進網站看數據
: 所有提示詞、記憶、出牌過程都有紀錄
: 想試試的也可以下載開源mod自己打看看
: 挺有趣的
: 賽博鬥蛐蛐
看推文好像有人誤解了
這裡排行榜上的 round 是打倒幾個盲注而已
不是底注
所有的測試都是測到底注8過關而已
所以 Gemini 的平均 19 round 其實只是有時候以正常的 24 round 過關的結果
(但不得不說這已經比我想像中強太多了,畢竟這是通用 LLM 不是專門訓練來打小丑牌)
另外包括 Deepseek 在內的開源模型是完全過不了關,根本玩不明白
Deepseek 最慘的一場在第二回合手上有四張黑桃還堅持要做順
然後就沒有然後了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.163.102 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1770356313.A.FA8.html
※ 編輯: raincole (123.240.163.102 臺灣), 02/06/2026 13:39:16
※ 編輯: raincole (123.240.163.102 臺灣), 02/06/2026 13:39:38
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):