[情報] DeepMind AI「AlphaStar」

看板StarCraft作者 (謊言接線生)時間5年前 (2019/01/26 19:27), 編輯推噓18(18020)
留言38則, 15人參與, 5年前最新討論串1/1
感想先寫在前頭,這篇有講到一些設定的部分,事實上每五場都是五個不同模型 。然後輸的那場有要讓AI切螢幕,而且只訓練一個星期而已。也就是說別的模型說不 定未必會有那個空投拉扯問題。 APM部分的限制不知道到底怎麼設定的,感覺是峰值APM也應該限制一下。 DeepMind AI「AlphaStar」對戰《星海爭霸 II》職業高手,取得十勝一敗成績 https://engt.co/2Sahn4j 在基本上輾壓了圍棋界之後,DeepMind 團隊將目光放到了自由度更高的即時戰 略遊戲,並且最近都在忙著調校一個新的「AlphaStar」AI,來挑戰《星海爭霸 II》 的職業高手。在上月底連續兩組五局對戰中,AlphaStar 先全勝了 TLO,接著又在第 二組對戰中全勝了 MaNa。唯有最後一場直播的對戰,才讓 MaNa 好歹為人類爭了一 口氣,贏回唯一一場勝利。 不過,事情當然不像表面那麼簡單。AlphaStar 相對於人類,其實是隱藏優勢的 。這時候有在玩 RTS 的讀者大概會猜是反應速度、或是手速,但其實都不是 -- AlphaStar 的「手速」(也就是每分鐘動作數)其實平均只有 277 APM,比起星海職 業選手的平均 559 APM 要少了不止一點,再加上 AI 從發現新狀況,到計畫出合理 的回應,中間大約要 0.35 秒的時間,這也比一般職業高手差。在這部份, AlphaStar 完全是靠更有效率的操作,與更經濟的決策來彌補的。AlphaStar 真正「 作弊」之處,在於它可以同時看到整個地圖,當然戰爭迷霧還是存在,只是 AlphaStar 不像人類對手一樣,要一直不停地在地圖來回跳動檢視,自然也不容易被 偷襲囉。 AlphaStar 的訓練和其他類似的 AI 系統一樣,都是先由觀看無數的人類對戰影 片,來產生一個模型,再由這模型產生一大堆類似但不完全相同的「分身」,再讓這 些分身下去對打,直到決勝出最厲害的五個 AI「選手」為止。在一個月的虛擬對戰 中,AlphaStar 的諸多分身份進行了等同於現實時間 200 年的對戰時長,最後選出 的五個代表每個都有不同的遊戲風格,並且是 DeepMind 認為最有獲勝機會的。就是 這五個代表被推上去與 TLO 和 MaNa 各對戰了一次(避免風格重複被看破手腳,同 時 MaNa 面對的 AlphaStar 更有經驗一點),並取得了十戰全勝的成績。 至於最後一場呢?原來這是個「實驗版」的 AlphaStar,拿掉了上面提到的那個 「隱藏優勢」,讓模型必需和人類一樣時不時地檢查一下地圖的各個角落,自然也就 有錯漏重要資訊的可能。雖然也有著一個禮拜的訓練時間,但 DeepMind 團隊未能讓 它先與人類選手「切搓」一下,因此與 MaNa 在直播上的對戰是它與人類面對面的初 戰,可惜輸給了對方。 當然,對我們一般人來說,就是真正具備高度挑戰性的遊戲 AI 已經不再是個夢 想,即使是即時戰略這樣沒有明確的勝敗因素、沒有完整的資訊、而且需要長遠的概 念的遊戲,AI 都有打敗人類的潛力了。有興趣的話 DeepMind 自己的部落格上有 AlphaStar 與兩位人類的對戰影片,可以去看看 AlphaStar 採取的各種奇怪的戰略 囉。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.165.93 ※ 文章網址: https://www.ptt.cc/bbs/StarCraft/M.1548502025.A.A4F.html

01/26 19:36, 5年前 , 1F
APM的說明在這 https://goo.gl/f2kWPy
01/26 19:36, 1F

01/26 21:19, 5年前 , 2F
AI的APM應該要降 不然就是不能用API 用滑鼠輸入吧
01/26 21:19, 2F

01/26 21:51, 5年前 , 3F
看了VOD 人類除了兵力大優 不然會戰完全被AI的操作完爆
01/26 21:51, 3F

01/26 21:54, 5年前 , 4F
閃追操作也很猛 剩下一大堆殘血的追獵
01/26 21:54, 4F

01/26 22:28, 5年前 , 5F
只要APM合理操作就合理
01/26 22:28, 5F

01/26 23:26, 5年前 , 6F
一點都不合理 滑鼠隨點隨到 這樣練出一個只會操作的A
01/26 23:26, 6F

01/26 23:26, 5年前 , 7F
I有何意義
01/26 23:26, 7F

01/26 23:59, 5年前 , 8F
1. 就算練出只會操作的AI一樣神 不然以前怎麼練不出
01/26 23:59, 8F

01/27 00:00, 5年前 , 9F
2. 模擬滑鼠或者機器手臂什麼的都是花招而已
01/27 00:00, 9F

01/27 00:00, 5年前 , 10F
真的要直接限制單位時間數量或特定動作延遲即可
01/27 00:00, 10F

01/27 00:01, 5年前 , 11F
3. 這個不是最後結果 不需要現在就蓋棺論定
01/27 00:01, 11F

01/27 00:53, 5年前 , 12F
阿法星以後成長到一定程度會不會覺得很屈辱,泥馬的
01/27 00:53, 12F

01/27 00:53, 5年前 , 13F
限制我的手速這算是怎麼一回事
01/27 00:53, 13F

01/27 01:12, 5年前 , 14F
兵不厭詐,這是我們訓練AI的最終目的,能使詐,並預測對
01/27 01:12, 14F

01/27 01:12, 5年前 , 15F
手(使詐), 權衡得失以獲得勝利。其他的都是附加而已。
01/27 01:12, 15F

01/27 04:54, 5年前 , 16F
APM沒啥好限制的吧 本質上就只是操作比較強而已
01/27 04:54, 16F

01/27 04:54, 5年前 , 17F
職業選手之間進行比賽,也有操作的高低,難道我們就會去
01/27 04:54, 17F

01/27 04:54, 5年前 , 18F
跟操作比較強的選手說請他放慢嗎?
01/27 04:54, 18F

01/27 04:55, 5年前 , 19F
頂多是希望DeepMind不要做出一個只有操作比較強的AI
01/27 04:55, 19F

01/27 08:02, 5年前 , 20F
AI如果是靠操作打贏人類就完全違背這個研究的意義了
01/27 08:02, 20F

01/27 08:02, 5年前 , 21F
,DM的計畫向來就不是如何打敗人類,而是看AI能不能
01/27 08:02, 21F

01/27 08:02, 5年前 , 22F
找出更好的營運和會戰方法,都歷經一次AlphaGo了還有
01/27 08:02, 22F

01/27 08:02, 5年前 , 23F
人不知道這個計畫在幹嘛
01/27 08:02, 23F

01/27 08:59, 5年前 , 24F
加入模擬滑鼠的操作 限制移動速度應該可以防止非人操作
01/27 08:59, 24F

01/27 09:50, 5年前 , 25F
希望能公布AI的第一視角VOD 一定很有趣
01/27 09:50, 25F

01/27 09:51, 5年前 , 26F
APM沒限制好就是出現這樣的AI
01/27 09:51, 26F

01/27 11:02, 5年前 , 27F
ai的目的不是什麼找出新戰術好嗎?dm的目的是讓ai自己學
01/27 11:02, 27F

01/27 11:02, 5年前 , 28F
習遊戲到打敗人類,他們才不管你有沒有什麼新戰術
01/27 11:02, 28F

01/27 12:31, 5年前 , 29F
DeepMind的目的是讓AI學會玩這個遊戲,然後它們目前學習
01/27 12:31, 29F

01/27 12:31, 5年前 , 30F
得出的結論是SC2這遊戲靠操作。好像也不是很意外?尤其
01/27 12:31, 30F

01/27 12:31, 5年前 , 31F
是同族對決
01/27 12:31, 31F

01/27 12:40, 5年前 , 32F
其實應該說我們應該要有輔助系統幫助人類處理手速問題
01/27 12:40, 32F

01/27 12:40, 5年前 , 33F
這樣這個實驗才好繼續做下去
01/27 12:40, 33F

01/27 12:41, 5年前 , 34F
因為APM還是其次,AI不可能模仿人類「注意力下降」的部分
01/27 12:41, 34F

01/27 13:32, 5年前 , 35F
AI模仿人類的紀律性與戰略
01/27 13:32, 35F

01/27 19:45, 5年前 , 36F
還在扯手速= =
01/27 19:45, 36F

01/27 21:36, 5年前 , 37F
有在用智能指令就知道 ai 破千的apm和玩家的意義絕
01/27 21:36, 37F

01/27 21:36, 5年前 , 38F
對不一樣
01/27 21:36, 38F
文章代碼(AID): #1SJ4G9fF (StarCraft)