[閒聊] AI使用Minecraft作為評測基準

看板C_Chat作者error405 (流河=L)時間13小時前 (2026/06/13 10:11)推噓9(9推 0噓 11→)

留言20則, 12人參與討論串1/1

https://x.com/Meituan_LongCat/status/2065464844112064541 https://pbs.twimg.com/media/HKn6bXxakAEBkSh.jpg

AI 使用 Minecraft 作為評測基準：MineExplorer 簡單介紹你有沒有想過，玩《我的世界》（Minecraft）居然能用來測試 AI 的智慧程度？最近，美團 LongCat 團隊推出了一個名為 MineExplorer 的 AI 評測基準（Benchmark），它把 Minecraft 這個開放世界遊戲變成了一個科學的「AI 考場」，專門測試 AI 代理人在複雜、真實環境中的探索能力。為什麼用 Minecraft 來測 AI？傳統的 AI 測試通常是給 AI 看圖片、回答問題，或完成短暫的固定任務，這些測試比較「靜態」且不夠接近真實世界。 Minecraft 的優點在於：開放世界：地圖很大、資源分散，AI 必須自己探索。動態變化：AI 每走一步，世界就會即時改變（不像固定考卷）。需要長期規劃：任務可能要花好幾分鐘、上千個步驟才能完成。接近真實生活：需要觀察環境、推理因果、制定計劃、執行行動，幾乎把「在未知世界生存」這件事濃縮進去了。 MineExplorer 的核心概念 MineExplorer 不是隨便讓 AI 去玩 Minecraft，而是設計了一系列有難度的結構化任務。例如：簡單任務（Single-hop）：找到一棵樹並砍下來。困難任務（Multi-hop，多跳）：AI 必須先找到某個地標 → 清除障礙 → 收集材料 → 合成工具 → 才能達成最終目標。這些任務裡面藏了很多「隱藏的前提條件」（hidden prerequisites），AI 看不到明顯提示，必須靠自己推理才能一步步完成。團隊還開發了自動評分系統，使用規則來檢查 AI 是否真的達成了每個里程碑（ milestones），不需要人工打分。目前 AI 表現如何？ https://pbs.twimg.com/media/HKn5Y-6b0AAxqY1.jpg

研究團隊測試了 18 個最先進的多模態大語言模型（包含 GPT5.4、Claude、Gemini 等），結果顯示：最佳模型也只拿到 41 分（滿分 100）。簡單一步任務還算可以，但需要多步推理的任務，成功率就大幅下滑。最常失敗的原因竟然是最基本的導航：AI 明明看得到目標，卻常常找不到路或卡住。即使給 AI 更長的記憶，也沒有顯著幫助，有時還因為記太多舊畫面而變差。這顯示：現在的 AI 雖然「看得見」世界，卻還不擅長「探索」和「長期規劃」世界。為什麼這個基準重要？ MineExplorer 提供了一個公開、透明、可重現的測試平台，讓研究人員能清楚衡量 AI 在開放世界中的真實能力。它不只用來排名模型，更開放了任務生成工具，任何人都可以用它來產生新任務，或用來訓練更強的 AI 代理人。未來，當 AI 在 MineExplorer 上拿到高分時，可能代表它已經具備更接近人類的探索與適應能力，這對機器人、自動駕駛、遊戲 NPC 等實際應用有很大幫助。總結 Minecraft 不再只是遊戲，它已經成為 AI 研究的重要「沙盒」。MineExplorer 把這個沙盒變得更有系統、更科學，讓我們能清楚看到目前 AI 的極限在哪裡，以及未來還需要突破哪些關鍵能力。想了解更多，可以去看他們的： GitHub 專案 https://github.com/meituan-longcat/MineExplorer Hugging Face 資料集 https://huggingface.co/datasets/meituan-longcat/MineExplorer 論文（arXiv 2605.30931） https://arxiv.org/abs/2605.30931 你覺得 AI 什麼時候才能在 Minecraft 裡像人類玩家一樣自由探索呢？ -- Grok整理等AI也學會玩遊戲你就知道 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.213.116 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1781316664.A.E99.html

推

Koyomiiii

06/13 10:12, 13小時前 , 1^F

06/13 10:12, 1^F

→

Koyomiiii

06/13 10:12, 13小時前 , 2^F

06/13 10:12, 2^F

推

shadowblade

06/13 10:13, 13小時前 , 3^F

06/13 10:13, 3^F