[情報] 機器之心報導DeepMind AlphaStar
https://mp.weixin.qq.com/s/GqWbbmblXB1-W9izHWQFYg
DeepMind AlphaStar星際爭霸2首秀:Demo很強大,現場比賽竟然輸了
兩年前,DeepMind 曾宣布開始研究打即時戰略遊戲《星海爭霸2》的人工智
慧,今天,AlphaStar 終於首次亮相在世人眼前。在對陣人類職業玩家、前
WCS 亞軍MaNa 的一場比賽中,人工智慧卻被人類「狡詐」的戰術迷惑,輸
給了對手。
看來,人工智慧在征服這個「最複雜遊戲」的過程中還需要學會應對很多戰
術和突發情形。在全球首場星海爭霸2 的「人機大戰」中,AI 和人類玩家
都使用了神族。
人工智慧表示:Pimba,所以我用神族(其實當然不是了,是因為神族的兵
種最容易計算)。
挑戰遊戲AI 的最高峰
2018年,機器之心記錄了OpenAI人工智慧挑戰Dota 2的全部過程:從最初的
1 v 1戰勝Dendi,到5 v 5團隊賽中擊敗業餘人類玩家,最後在TI 8中挑戰
職業玩家敗北。
雖然OpenAI 的人工智慧在TI 8 現場的表現不盡人意,但我們可以看到這個
社群在AI+遊戲領域不斷取得進步。
除了Dota2、王者榮耀這樣的Moba 類游戲,星海爭霸因其豐富的多層次遊戲
機制,對於人工智慧研究來說也是一個再理想不過的環境。過去一年,機器
之心報導了眾多機構在星海爭霸、星海爭霸2 上的AI 研究成果。而我們所
熟知的DeepMind,在圍棋專案結束之後也成為了AI+星海爭霸研究的主力之
一。
兩天前,DeepMind宣布會以線上直播的形式公佈AI+星海爭霸2方面的最新進
展,吸引了AI社區、遊戲社區的極大關注。
小編作為Dota2菜雞,今日為大家帶來最新的報導:DeepMind 的AlphaStar
很強,它在一個月前接連以5:0 的比分戰勝了Liquid 戰隊的兩名職業選
手,但現場比賽卻輸了。
與DeepMind 的其他人工智慧一樣,打星海爭霸2 的人工智慧也需要一個自
己的名字。在人機大戰開場數小時前,DeepMind 創始人Demis Hassabis就
透過Twitter 向我們揭曉了謎底,繼AlphaGo、AlphaGo Zero、AlphaFold
之後,新的AI名為AlphaStar。
在AI 圈、遊戲界關注之下,DeepMind 的星海爭霸2 AI 首秀開始。此次
Demo 的主持人為美國電子競技解說Artosis。Artosis 的詛咒就被喻為歐美
星海爭霸圈內的最強毒奶。RotterdaM 是星海爭霸2 官方解說,前魔獸3、
星海2 職業選手。
在開場前,DeepMind 聯合研究負責人Oriol Vinyals 對比了Atari 遊戲、
圍棋與星海爭霸2 三者之間的複雜度。
星海爭霸2 是人類游戲史上最困難、最成功的即時戰略遊戲,這一系列遊戲
的歷史已經超過20 年。星海爭霸長盛不衰的部分原因在於其豐富的多層次
遊戲機制,對於人工智慧研究來說,這是一個非常接近現實世界的虛擬環
境。
星海爭霸擁有平衡的遊戲規則,以及諸多資訊和需要控制的變量。例如,雖
然遊戲的目標是擊敗對手,但玩家也必須顧及並平衡子目標的數量,比如收
集資源(水晶和氣礦)或建造房屋(提高人口限制)。此外,一場比賽的時
間通常為幾分鐘到一小時不等,這意味著遊戲中提早執行的操作也許會很長
時間不見成效。最後,由於戰爭迷霧的存在,地圖對於玩家只有部分顯示,
這意味著AI必須結合記憶與規劃才能成功。
星海爭霸還有其他吸引研究者的方面,比如每天上線競爭的大量狂熱玩家。
這保證了有大量的遊戲記錄數據可以學習,以及大量可與AI競爭的優秀人類
對手。
甚至星海爭霸的操作空間也是一個挑戰,可從超過300 種操作中做選擇,相
比之下Atari 遊戲只有10 種操作選擇(例如,上下左右等)。在此之上,
星海爭霸中的操作是層級的,能夠進行調整、增強,有很多遊戲單位需要點
擊屏幕控制。即使一個84x84 解析度的小屏幕,大概也存在1 億種可能的操
作。
5:0 擊敗LiquidTLO?演戲嗎?
AlphaStar 對決的第一個人類對手,是Liquid戰隊的星海爭霸2 職業玩家
LiquidTLO。他是一名來自德國的蟲族玩家,活躍於2013-2015 年,本名
Dario Wünsch。TLO 職業生涯最好的成績是2013 年6 月,在HomeStory
Cup VII 獲得第三名,目前TLO 的全球排名為68 位。
TLO 對於能夠被邀請來到DeepMind 成為首個接受AI 挑戰的職業選手感到有
些驚喜:「當時DeepMind 發了封電子郵件來邀請我,後來我發現自己就來
倫敦了。」雖然在主玩蟲族之前, TLO 還打過一陣Random,但他已經28 歲
了,神族遊戲強度存疑。他在前去DeepMind 對戰之前練習了百場比賽。
比賽期間,小編也逛了scboy 的直播。黃旭東表示,LiquidTLO 都已經28
了,找他來打,開玩笑嗎?雖然AI 限制了APM,但是因為AI 應該完全沒有
無效操作,180 的APM 還是很高的。而相對於人類選手,有效操作180 已經
是頂級強度了。
開場之後,第一盤人類選手使徒雙開對AI 單礦VR。第一波使徒騷擾
AlphaStar 防守中規中矩,可以說不虧不賺。之後反穿了兩個使徒打到了6
個農民拖後了開礦節奏。而後AlphaStar 開門帶運輸機前壓,點掉電池之後
通過運輸機操作秀了人類選手一臉,AI 不朽還在路上TLO 就打出GG。
此時的AlphaStar 看起來表現不強,菜雞互啄。開局沒有去對手家裡探路,
也沒有做紀律性的查看對手有沒有野建築之類的操作,讓人難以明白AI 是
怎麼判斷對手的戰術的。
在展示的第三場比賽影片中,雙方打出一個雙礦對開的局面。AI 前期補了
兩礦農民才放下基地,但是人口還是領先,給到了人類選手一定的壓力。尤
其是在操作上,AI 操作猛如虎。但是從比賽看來它還是有非常大的局限
性,對於一些情況完全不知道如何處理,而且並沒有多線操作,而是所有兵
力集中推進。大概唯一的多線就是在AI 家裡的運營一直非常穩健。影片中
雖然TLO 利用一些小多線和鳳凰、立場打回了一些。尤其是在中期有一波AI
領先60 人口但是沒有打過,人口差一度被打回20 以內。但是由於AI 平穩
的運營,還是把優勢掌握在手裡,直到最後人類選手打出GG。
最後,AlphaStar 以5:0 的絕對優勢擊敗了TLO。旭東老仙與眾多網友都表
示TLO 未能發揮出職業玩家該有的強度,請的演員嗎?(不是小編說的)。
但是看了下面AlphaStar 對戰波蘭選手MaNa 的影片之後,之前看了TLO 比
賽喊著「收了錢、放水、假賽」的叛徒們又轉彎了。
5:0 擊敗MANA,服了
在LiquidTLO 之後,DeepMind 的AlphaStar 對決的人類選手是同樣來自
Liquid戰隊的MaNa。MaNa 本名Grzegorz Komincz,來自波蘭,曾在2015 年
的WCS 闖進決賽,這是一個正經的神族選手。
https://i.imgur.com/EYxj2RA.gif
對戰MaNa 時,AlphaStar 視角的神經網路處理視覺化。神經網路觀察影
像,輸入內容會激活網路的不同節點,進而開始「考慮」應對的動作,例如
點擊和建造,並預測各種結果。AlphaStar 也會預測對手的發展情況,儘管
有時因為戰爭迷霧的存在無法完全做到。
在第一場比賽中,AI 的第一個水晶很難受,影響了採氣,但是AlphaStar
主動放了一個戰術:在MaNa 基地附近放下了兩個BG,但是很快就被MaNa 看
到。之後,MaNa 放下電池後放心的派出先知去AlphaStar 家裡屠農,但是
AI 在頂著MaNa 兩個追獵的火力點掉了高地下方的石頭之後,堅決的打出一
波。雖然MaNa 的不朽已經走出VR,但是第一時間被點掉。拖農民對於AI 的
操作根本沒有影響,先知回防也被立刻點掉,MaNa 打出GG。
看了對戰MaNa 的影片,旭東老仙說,AlphaStar 鳳凰的這個操作有些誇
張,是人類玩家無法實現的。對戰MaNa 和TLO 中間間隔了一周,看來已經
學會堵口的建築學了。
此外,AI 對於農民採礦的細節應該是也在不斷調整。我們可以從影片中看
出,同樣的農民數量,採礦效率總是比人類選手高。
看到這裡,我們可以發現AlphaStar 此時的操作和運營真的無懈可擊,它對
攻擊對象的選擇也是很精確,沒有浪費火力,也就是說戰鬥中幾乎是0 失
誤。
這樣的電腦看來只能拼一槍戰術了,操作肯定是拼不過了,看看能不能在兵
者詭道方面佔一些便宜。
第四場影片看到的就是AI 用無解的操作非常賴皮的以劣勢兵種強吃人類玩
家兵力。雖然AI 主力只有追獵者,但是被MaNa 分割之後打出了三線拉扯,
打出了罕見的追獵包不朽,一波瞬間1600 的APM 之後操作完勝,MaNa 主力
死光無奈GG。
最後,MaNa 0:5 同樣敗北。
現場對決MaNa:出人意料的反轉
https://www.youtube.com/watch?v=UuhECwm31dM
AlphaStar 背後的故事
在上面這段記錄影片中,DeepMind 回顧了AlphaStar 的超快進化歷程:
2018 年12 月10 日,AlphaStar 擊敗了DeepMind 公司裡的最強玩家Dani
Yogatama;到了12 月12 日,AlphaStar 已經可以5:0 擊敗職業玩家TLO 了
(雖然TLO 是蟲族玩家,但解說們認為他在遊戲中的表現大概能有5000 分
強度);又過了一個星期,12 月19 日,AlphaStar 同樣以5:0 的比分擊敗
了職業玩家MaNa。
為了讓人感受充分訓練後AlphaStar 的強大,DeepMind 安排了一場現場對
決。MaNa 在比賽前稱,自己要來一場「復仇之戰」。
出人意料的是,這一場比賽人類選手竟然獲勝了。
這是AlphaStar 首次星海爭霸2 的人機大戰直播。通過這場比賽我們可以看
到AI 的一個缺陷:除了特定的分兵戰術,並沒有靈活的兵力分配概念。這
讓我們想起打星際1 電腦的遠古時代,開局派出一個農民去攻擊電腦的基
地,電腦就會派出所有農民去一直追殺你這個農民。這場MaNa 也是利用的
相似的辦法,棱鏡帶著兩不朽在AI 的基地不停騷擾,AlphaStar 一旦回防
立刻飛走,等AI 兵力出門又立刻繼續騷擾。
AlphaStar 是如何學會打星海爭霸2 的
TLO 和MaNa 等專業星海爭霸玩家在整場比賽中平均每分鐘可發出數百個動
作(APM)。這一數據遠小於星海爭霸的機器人(它們可以單獨控制所有單
位,達到數万APM)。在對陣TLO 和MaNa 的比賽中,AlphaStar 的平均APM
是280,稍低於職業玩家,不過AI 的操作都是有效操作。DeepMind 稱,
AlphaStar 的APM 較低是因為AI 使用人類玩家對戰的Replay 進行訓練,從
而模仿了人類的遊戲方式。此外,AI 在觀察影像和進行操作之間的延遲平
均為350 毫秒。
在比賽結束後不久,DeepMind 官方blog隨即放出了整個Demonstration 的
影片與AlphaStar 的技術介紹:http://bit.ly/2Mxe2a6
簡介中表示:AlphaStar的行為是由一種深度神經網路生成的,它從原始遊戲
界面(單位列表與它們的特性)接收輸入數據,輸出構成遊戲內行為的指令
序列。具體來說,該神經網路在單元中使用了一個transformer作為軀幹,
結合了一個深度LSTM核、一個帶有pointer網路的自動回歸策略head以及一
個中心價值Baseline。
AlphaStar也使用到了全新的多AI學習算法。神經網路最初通過暴雪公開的
匿名人類游戲影片以監督學習進行訓練。這讓AlphaStar能夠通過模仿進行
學習天梯玩家的基礎微操與宏觀操作策略。
https://i.imgur.com/3Pf8GRo.png
AlphaStar 聯盟。最初是通過人類玩家的遊戲重播影片進行訓練,然後與其
他對手對抗訓練。每次迭代就匹配新的對手,凍結原來的對手,匹配對手的
概率和超參數決定了每個AI採用的的學習目標函數,保留多樣性的同時增加
難度。AI的參數通過強化學習進行更新。最終的AI採樣自聯盟的Nash分佈
(沒有更換)。
https://i.imgur.com/96dyHRz.png
比賽匹配分級評估:對不同訓練時間的AlphaStar 聯盟強度的大約估計
https://i.imgur.com/wfUgF4b.png
隨著自我博弈的進行,AlphaStar 逐漸開發出了越來越成熟的戰術。
DeepMind 表示,這一過程和人類玩家發現戰術的過程類似:新的戰術不斷
擊敗舊的戰術。
為了訓練AlphaStar,DeepMind 使用了Google最先進的深度學習晶片TPU v3
構建了一個高度可擴展的分散式訓練配置,支援數千個對戰訓練平行運算。
AlphaStar League 運行了14 天,每個Agent使用16 塊TPU。在訓練時間
上,每個AI相當於訓練了人類的200 年遊戲時間。最後成型的AlphaStar 採
用了各個AI中獲勝概率最高戰術的組合,並可以在單個GPU 的計算機上運
行。
DeepMind 表示,對於這項工作的全面描述已經寫成論文,目前正在接受同
行評議期刊的審閱。又會是一篇Nature 嗎?
結語
看了前面重播的比賽影片,我們經歷了從「很失望」、「AlphaStar 不
行」,到「AI 的操作有點意思」,最後到「人類要完」、「打不過了」。
但最終的現場決賽,人類玩家還是扳回一城。
此外,DeepMind 的AlphaStar 也許並非最強的AI。芬蘭電競戰隊ENCE 也在
兩天發布通告:Artificial Overmind 挑戰賽的獲勝AI 將可以挑戰世界冠
軍Serral,也許這會是一場值得期待的人機對決。
--
爐石戰記Google日曆 Beta
http://bit.ly/2uyPFjY
點選上面連結,就可以將國內外賽事、新卡發表等重要日期加入你的Google日曆
讓你不再錯過~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.42.98.28
※ 文章網址: https://www.ptt.cc/bbs/StarCraft/M.1548385772.A.971.html
→
01/25 11:16,
5年前
, 1F
01/25 11:16, 1F
→
01/25 11:16,
5年前
, 2F
01/25 11:16, 2F
→
01/25 11:19,
5年前
, 3F
01/25 11:19, 3F
→
01/25 11:19,
5年前
, 4F
01/25 11:19, 4F
推
01/25 11:20,
5年前
, 5F
01/25 11:20, 5F
→
01/25 11:20,
5年前
, 6F
01/25 11:20, 6F
→
01/25 11:21,
5年前
, 7F
01/25 11:21, 7F
→
01/25 11:21,
5年前
, 8F
01/25 11:21, 8F
我昨天睡著了沒看最後一場 謝補充 XD
推
01/25 11:27,
5年前
, 9F
01/25 11:27, 9F
※ 編輯: Jotarun (114.42.98.28), 01/25/2019 11:32:13
推
01/25 11:35,
5年前
, 10F
01/25 11:35, 10F
→
01/25 11:35,
5年前
, 11F
01/25 11:35, 11F
→
01/25 11:38,
5年前
, 12F
01/25 11:38, 12F
→
01/25 11:38,
5年前
, 13F
01/25 11:38, 13F
推
01/25 11:40,
5年前
, 14F
01/25 11:40, 14F
→
01/25 11:41,
5年前
, 15F
01/25 11:41, 15F
推
01/25 11:43,
5年前
, 16F
01/25 11:43, 16F
→
01/25 11:43,
5年前
, 17F
01/25 11:43, 17F
推
01/25 11:52,
5年前
, 18F
01/25 11:52, 18F
→
01/25 11:54,
5年前
, 19F
01/25 11:54, 19F
→
01/25 11:55,
5年前
, 20F
01/25 11:55, 20F
推
01/25 11:55,
5年前
, 21F
01/25 11:55, 21F
推
01/25 11:57,
5年前
, 22F
01/25 11:57, 22F
→
01/25 11:58,
5年前
, 23F
01/25 11:58, 23F
→
01/25 11:58,
5年前
, 24F
01/25 11:58, 24F
推
01/25 11:59,
5年前
, 25F
01/25 11:59, 25F
→
01/25 11:59,
5年前
, 26F
01/25 11:59, 26F
推
01/25 12:02,
5年前
, 27F
01/25 12:02, 27F
→
01/25 12:02,
5年前
, 28F
01/25 12:02, 28F
→
01/25 12:02,
5年前
, 29F
01/25 12:02, 29F
→
01/25 12:02,
5年前
, 30F
01/25 12:02, 30F
→
01/25 12:03,
5年前
, 31F
01/25 12:03, 31F
推
01/25 12:03,
5年前
, 32F
01/25 12:03, 32F
→
01/25 12:04,
5年前
, 33F
01/25 12:04, 33F
→
01/25 12:04,
5年前
, 34F
01/25 12:04, 34F
→
01/25 12:04,
5年前
, 35F
01/25 12:04, 35F
→
01/25 12:04,
5年前
, 36F
01/25 12:04, 36F
→
01/25 12:05,
5年前
, 37F
01/25 12:05, 37F
還有 101 則推文
還有 2 段內文
推
01/25 15:18,
5年前
, 139F
01/25 15:18, 139F
推
01/25 15:25,
5年前
, 140F
01/25 15:25, 140F
推
01/25 15:40,
5年前
, 141F
01/25 15:40, 141F
推
01/25 16:10,
5年前
, 142F
01/25 16:10, 142F
→
01/25 16:11,
5年前
, 143F
01/25 16:11, 143F
推
01/25 16:15,
5年前
, 144F
01/25 16:15, 144F
推
01/25 16:19,
5年前
, 145F
01/25 16:19, 145F
→
01/25 16:20,
5年前
, 146F
01/25 16:20, 146F
推
01/25 16:23,
5年前
, 147F
01/25 16:23, 147F
→
01/25 16:23,
5年前
, 148F
01/25 16:23, 148F
推
01/25 16:44,
5年前
, 149F
01/25 16:44, 149F
→
01/25 16:45,
5年前
, 150F
01/25 16:45, 150F
推
01/25 17:15,
5年前
, 151F
01/25 17:15, 151F
推
01/25 17:17,
5年前
, 152F
01/25 17:17, 152F
→
01/25 17:18,
5年前
, 153F
01/25 17:18, 153F
→
01/25 17:18,
5年前
, 154F
01/25 17:18, 154F
→
01/25 17:18,
5年前
, 155F
01/25 17:18, 155F
推
01/25 17:41,
5年前
, 156F
01/25 17:41, 156F
推
01/25 18:57,
5年前
, 157F
01/25 18:57, 157F
推
01/25 19:34,
5年前
, 158F
01/25 19:34, 158F
推
01/25 20:13,
5年前
, 159F
01/25 20:13, 159F
→
01/25 20:13,
5年前
, 160F
01/25 20:13, 160F
→
01/25 20:15,
5年前
, 161F
01/25 20:15, 161F
→
01/25 20:15,
5年前
, 162F
01/25 20:15, 162F
推
01/25 20:19,
5年前
, 163F
01/25 20:19, 163F
假設真的手臂操作好了 做的夠好一樣可以高APM 意義在哪?
推
01/25 20:24,
5年前
, 164F
01/25 20:24, 164F
推
01/25 20:37,
5年前
, 165F
01/25 20:37, 165F
推
01/25 21:21,
5年前
, 166F
01/25 21:21, 166F
→
01/25 21:21,
5年前
, 167F
01/25 21:21, 167F
老實說要機器手臂按歪實在很難.. 精度都是.1mm以下的
至於物理速度的話要比人快也不是什麼難事啊
※ 編輯: Jotarun (114.42.98.28), 01/25/2019 21:27:18
推
01/25 21:30,
5年前
, 168F
01/25 21:30, 168F
→
01/25 21:30,
5年前
, 169F
01/25 21:30, 169F
→
01/25 22:01,
5年前
, 170F
01/25 22:01, 170F
→
01/25 22:02,
5年前
, 171F
01/25 22:02, 171F
推
01/25 22:03,
5年前
, 172F
01/25 22:03, 172F
→
01/25 22:04,
5年前
, 173F
01/25 22:04, 173F
→
01/25 22:04,
5年前
, 174F
01/25 22:04, 174F
→
01/25 22:05,
5年前
, 175F
01/25 22:05, 175F
→
01/25 22:05,
5年前
, 176F
01/25 22:05, 176F
討論串 (同標題文章)
完整討論串 (本文為第 1 之 4 篇):