[情報] DeepMind AI「AlphaStar」

看板StarCraft作者ddavid (謊言接線生)時間5年前 (2019/01/26 19:27)推噓18(18推 0噓 20→)

留言38則, 15人參與討論串1/1

感想先寫在前頭，這篇有講到一些設定的部分，事實上每五場都是五個不同模型。然後輸的那場有要讓AI切螢幕，而且只訓練一個星期而已。也就是說別的模型說不定未必會有那個空投拉扯問題。 APM部分的限制不知道到底怎麼設定的，感覺是峰值APM也應該限制一下。 DeepMind AI「AlphaStar」對戰《星海爭霸 II》職業高手，取得十勝一敗成績 https://engt.co/2Sahn4j 在基本上輾壓了圍棋界之後，DeepMind 團隊將目光放到了自由度更高的即時戰略遊戲，並且最近都在忙著調校一個新的「AlphaStar」AI，來挑戰《星海爭霸 II》的職業高手。在上月底連續兩組五局對戰中，AlphaStar 先全勝了 TLO，接著又在第二組對戰中全勝了 MaNa。唯有最後一場直播的對戰，才讓 MaNa 好歹為人類爭了一口氣，贏回唯一一場勝利。不過，事情當然不像表面那麼簡單。AlphaStar 相對於人類，其實是隱藏優勢的。這時候有在玩 RTS 的讀者大概會猜是反應速度、或是手速，但其實都不是 -- AlphaStar 的「手速」（也就是每分鐘動作數）其實平均只有 277 APM，比起星海職業選手的平均 559 APM 要少了不止一點，再加上 AI 從發現新狀況，到計畫出合理的回應，中間大約要 0.35 秒的時間，這也比一般職業高手差。在這部份， AlphaStar 完全是靠更有效率的操作，與更經濟的決策來彌補的。AlphaStar 真正「作弊」之處，在於它可以同時看到整個地圖，當然戰爭迷霧還是存在，只是 AlphaStar 不像人類對手一樣，要一直不停地在地圖來回跳動檢視，自然也不容易被偷襲囉。 AlphaStar 的訓練和其他類似的 AI 系統一樣，都是先由觀看無數的人類對戰影片，來產生一個模型，再由這模型產生一大堆類似但不完全相同的「分身」，再讓這些分身下去對打，直到決勝出最厲害的五個 AI「選手」為止。在一個月的虛擬對戰中，AlphaStar 的諸多分身份進行了等同於現實時間 200 年的對戰時長，最後選出的五個代表每個都有不同的遊戲風格，並且是 DeepMind 認為最有獲勝機會的。就是這五個代表被推上去與 TLO 和 MaNa 各對戰了一次（避免風格重複被看破手腳，同時 MaNa 面對的 AlphaStar 更有經驗一點），並取得了十戰全勝的成績。至於最後一場呢？原來這是個「實驗版」的 AlphaStar，拿掉了上面提到的那個「隱藏優勢」，讓模型必需和人類一樣時不時地檢查一下地圖的各個角落，自然也就有錯漏重要資訊的可能。雖然也有著一個禮拜的訓練時間，但 DeepMind 團隊未能讓它先與人類選手「切搓」一下，因此與 MaNa 在直播上的對戰是它與人類面對面的初戰，可惜輸給了對方。當然，對我們一般人來說，就是真正具備高度挑戰性的遊戲 AI 已經不再是個夢想，即使是即時戰略這樣沒有明確的勝敗因素、沒有完整的資訊、而且需要長遠的概念的遊戲，AI 都有打敗人類的潛力了。有興趣的話 DeepMind 自己的部落格上有 AlphaStar 與兩位人類的對戰影片，可以去看看 AlphaStar 採取的各種奇怪的戰略囉。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.165.93 ※ 文章網址: https://www.ptt.cc/bbs/StarCraft/M.1548502025.A.A4F.html

推

Jotarun

01/26 19:36, 5年前 , 1^F

01/26 19:36, 1^F

推

HenryLin123

01/26 21:19, 5年前 , 2^F

01/26 21:19, 2^F

推

jiaching

01/26 21:51, 5年前 , 3^F

01/26 21:51, 3^F