[閒聊] AI使用Minecraft作為評測基準

看板C_Chat作者 (流河=L)時間13小時前 (2026/06/13 10:11), 13小時前編輯推噓9(9011)
留言20則, 12人參與, 10小時前最新討論串1/1
https://x.com/Meituan_LongCat/status/2065464844112064541 https://pbs.twimg.com/media/HKn6bXxakAEBkSh.jpg
AI 使用 Minecraft 作為評測基準:MineExplorer 簡單介紹 你有沒有想過,玩《我的世界》(Minecraft)居然能用來測試 AI 的智慧程度?最近, 美團 LongCat 團隊推出了一個名為 MineExplorer 的 AI 評測基準(Benchmark),它 把 Minecraft 這個開放世界遊戲變成了一個科學的「AI 考場」,專門測試 AI 代理人在 複雜、真實環境中的探索能力。 為什麼用 Minecraft 來測 AI? 傳統的 AI 測試通常是給 AI 看圖片、回答問題,或完成短暫的固定任務,這些測試比較 「靜態」且不夠接近真實世界。 Minecraft 的優點在於: 開放世界:地圖很大、資源分散,AI 必須自己探索。 動態變化:AI 每走一步,世界就會即時改變(不像固定考卷)。 需要長期規劃:任務可能要花好幾分鐘、上千個步驟才能完成。 接近真實生活:需要觀察環境、推理因果、制定計劃、執行行動,幾乎把「在未知世界生 存」這件事濃縮進去了。 MineExplorer 的核心概念 MineExplorer 不是隨便讓 AI 去玩 Minecraft,而是設計了一系列有難度的結構化任務 。 例如: 簡單任務(Single-hop):找到一棵樹並砍下來。 困難任務(Multi-hop,多跳):AI 必須先找到某個地標 → 清除障礙 → 收集材料 → 合成工具 → 才能達成最終目標。 這些任務裡面藏了很多「隱藏的前提條件」(hidden prerequisites),AI 看不到明顯 提示,必須靠自己推理才能一步步完成。 團隊還開發了自動評分系統,使用規則來檢查 AI 是否真的達成了每個里程碑( milestones),不需要人工打分。 目前 AI 表現如何? https://pbs.twimg.com/media/HKn5Y-6b0AAxqY1.jpg
研究團隊測試了 18 個最先進的多模態大語言模型(包含 GPT5.4、Claude、Gemini 等) ,結果顯示: 最佳模型也只拿到 41 分(滿分 100)。 簡單一步任務還算可以,但需要多步推理的任務,成功率就大幅下滑。 最常失敗的原因竟然是最基本的導航:AI 明明看得到目標,卻常常找不到路或卡住。 即使給 AI 更長的記憶,也沒有顯著幫助,有時還因為記太多舊畫面而變差。 這顯示:現在的 AI 雖然「看得見」世界,卻還不擅長「探索」和「長期規劃」世界。 為什麼這個基準重要? MineExplorer 提供了一個公開、透明、可重現的測試平台,讓研究人員能清楚衡量 AI 在開放世界中的真實能力。它不只用來排名模型,更開放了任務生成工具,任何人都可以 用它來產生新任務,或用來訓練更強的 AI 代理人。 未來,當 AI 在 MineExplorer 上拿到高分時,可能代表它已經具備更接近人類的探索與 適應能力,這對機器人、自動駕駛、遊戲 NPC 等實際應用有很大幫助。 總結 Minecraft 不再只是遊戲,它已經成為 AI 研究的重要「沙盒」。MineExplorer 把這個 沙盒變得更有系統、更科學,讓我們能清楚看到目前 AI 的極限在哪裡,以及未來還需要 突破哪些關鍵能力。想了解更多,可以去看他們的: GitHub 專案 https://github.com/meituan-longcat/MineExplorer Hugging Face 資料集 https://huggingface.co/datasets/meituan-longcat/MineExplorer 論文(arXiv 2605.30931) https://arxiv.org/abs/2605.30931 你覺得 AI 什麼時候才能在 Minecraft 裡像人類玩家一樣自由探索呢? -- Grok整理 等AI也學會玩遊戲你就知道 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.213.116 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1781316664.A.E99.html

06/13 10:12, 13小時前 , 1F
大家真的想要的是挖礦工人吧
06/13 10:12, 1F

06/13 10:12, 13小時前 , 2F
自由探索當然是玩家探索 AI給我去挖礦!
06/13 10:12, 2F

06/13 10:13, 13小時前 , 3F
目前這種非邏輯式的打字機要能順利運作有難度
06/13 10:13, 3F

06/13 10:14, 13小時前 , 4F
AINPC幫你挖礦模組的話記得很早就有了
06/13 10:14, 4F

06/13 10:14, 13小時前 , 5F
給AI玩紅石線路
06/13 10:14, 5F

06/13 10:15, 13小時前 , 6F
麥塊說真的也不容易,讓一個從來沒玩過遊戲的人來玩高
06/13 10:15, 6F

06/13 10:15, 13小時前 , 7F
機率也拿不到41分
06/13 10:15, 7F

06/13 10:16, 13小時前 , 8F
現在Chatgpt不是已經到五了嗎
06/13 10:16, 8F

06/13 10:19, 13小時前 , 9F
研究都要花時間假設實驗總結 很花時間吧
06/13 10:19, 9F
※ 編輯: error405 (114.36.213.116 臺灣), 06/13/2026 10:20:24

06/13 10:20, 13小時前 , 10F
從寶可夢畢業了
06/13 10:20, 10F

06/13 10:20, 13小時前 , 11F
用的是gpt5.4啦 改了
06/13 10:20, 11F

06/13 10:27, 13小時前 , 12F
主要還是操縱問題吧 物品合成列表那些的應該早就被
06/13 10:27, 12F

06/13 10:27, 13小時前 , 13F
學進去了
06/13 10:27, 13F

06/13 10:28, 13小時前 , 14F
完蛋,我都隨便蓋,被AI當白痴了
06/13 10:28, 14F
error405:轉錄至看板 AI_Art 06/13 10:47 error405:轉錄至看板 Minecraft 06/13 10:47

06/13 11:13, 12小時前 , 15F
之前有個用小遊戲讓AI自己理解規則去玩的 測起來也很慘烈
06/13 11:13, 15F

06/13 11:14, 12小時前 , 16F
感覺目前這些AI對真正理解還是不太行
06/13 11:14, 16F

06/13 11:14, 12小時前 , 17F
但固定規則知道要幹嘛就很強
06/13 11:14, 17F

06/13 11:22, 12小時前 , 18F
話說怎麼沒有老馬的grok啊?
06/13 11:22, 18F

06/13 11:26, 12小時前 , 19F
grok掉隊好陣子了 畢竟內部人走了一大批
06/13 11:26, 19F

06/13 13:28, 10小時前 , 20F
neuro可以拿幾分?
06/13 13:28, 20F
文章代碼(AID): #1gBBmuwP (C_Chat)