[新聞] AlphaGo之父黃士傑揭露DeepMind通用AI布局，最終目標要協助人類解決全球暖化難題

看板Gossiping作者nk11208z (小魯)時間4年前 (2020/01/21 09:26)推噓75(77推 2噓 26→)

留言105則, 96人參與討論串1/1

ithome AlphaGo之父黃士傑揭露DeepMind通用AI布局，最終目標要協助人類解決全球暖化難題文/王若樸 | 2020-01-20發表「我們的目標，是要打造通用AI，來協助人類解決世界上的難題，」DeepMind資深工程師、AlphaGo之父黃士傑雙眼炯炯有神地說。他去年12月底來臺演講時，分享了自己與 DeepMind的觀點，更指出「AI也許會提供我們從未想過的方法，幫助我們解決全球暖化、能源不足等問題。」而DeepMind押寶通用AI的新進展，就是去年11月底發表的MuZero，採強化學習，成功挑戰 AI難以致勝的雅達利（Atari）遊戲，一舉在57種雅達利遊戲中達到SOTA等級，更在國際象棋、日本將棋和圍棋等複雜的棋盤遊戲中，超越前代精通這三種棋藝的AlphaZero。其中的關鍵，就是MuZero可從遊戲中，自行找出規則。進一步來說，MuZero演算法結合了樹狀搜尋架構和學習模型，當它接收到棋盤影像或雅達利遊戲螢幕截圖後，便不斷地更新迭代，來決定下一步的策略、價值函數，以及即時獎勵。MuZero正是利用這個方法，摸索出「精準的規則，」DeepMind在論文中寫道。黃士傑比喻，「MuZero就好比會做夢的AlphaGo。」有別於需要真實棋譜資料的AlphaGo， MuZero不需輸入任何真實棋譜，就可自行建構棋盤。這個方法，不需要每走一步就執行一次模擬器（Simulator），也因此「加速了類神經網路的學習速度。」在黃士傑看來， MuZero打開了一扇窗，讓AlphaGo的方法可運用到更多決策領域，是邁向通用AI的里程碑。 DeepMind布局通用AI，從學習人類經驗的AlphaGo邁出第一步 DeepMind對通用AI的布局，還可從圍棋說起。2012年，黃士傑受邀加入DeepMind，2年後，Google併購DeepMind，決定發展圍棋AI，來挑戰電腦尚未突破的領域。這套圍棋AI，就是家喻戶曉的AlphaGo。AlphaGo以黃士傑多年前開發的單機版圍棋程式 Erica為基礎，為了打造媲美人類專家的圍棋AI，DeepMind決定採用新方法，也就是模仿人類思考的深度學習類神經網路，來改造線性模型的Erica。於是，AlphaGo專案負責人David Silver，要求黃士傑以C++重寫Erica，先打造一套基本模型，再來測試類神經網路。後來，Google Brain的深度學習專家Chris Maddison和 llya Sutskever也加入AlphaGo團隊，一起研發這套圍棋AI。團隊首先利用人類棋譜來訓練AlphaGo的策略網路（Policy Network），也就是下棋的策略，再利用價值網路（Value Network）來判斷局勢、預測贏家。這一點，再加上強化學習，讓AlphaGo不斷自我對奕、自我學習。後來，2016年，AI專用硬體如TPU逐漸成熟，大幅提高AlphaGo的勝率。經過無數次反覆訓練，AlphaGo先是贏過歐洲圍棋冠軍樊麾，登上《自然》期刊，又陸續贏過世界圍棋冠軍李世石、柯潔，成功向世人證明了AI的潛力。 AI再演進，AlphaZero不需人類經驗就能精通三種棋藝 AlphaGo打敗世界圍棋冠軍後，團隊乘著這股氣勢，展開另一項專案，打造出不需要海量訓練資料，就能自我訓練、學習規則的AI模型AlphaGo Zero。AlphaGo Zero能從零開始，不需人為干預，也不需要真實棋譜資料，就可自學下圍棋、摸索出關鍵知識，而且，經過 3天自我對奕490萬次，就以100比0完勝打敗李世石的AlphaGo。而在短短48天後，團隊進一步開發出能下圍棋、日本將棋和西洋棋的AlphaZero。 AlphaZero維持了AlphaGo Zero的特性，一樣結合蒙地卡羅樹搜尋方法、能從零開始自我學習，但不同的是，在開發過程中，團隊使用了5千個第一代TPU來產生遊戲，再利用64個第二代TPU來訓練類神經網路。結果，在24小時內，透過自我學習的AlphaZero，就打敗了三種棋類的電腦程式冠軍，也就是Stockfish、elmo，以及3天版本的AlphaGo Zero。而記載對戰結果的AlphaZero論文，更登上《科學》封面。 AlphaStar靠模仿學習面對新關卡，挑戰更高難度的即時策略遊戲星海爭霸II 不只在棋類上下功夫，DeepMind也將領域擴大到更有挑戰性的電玩遊戲，也就是即時策略遊戲星海爭霸II，來驗證強化學習的能力。這次，強化學習依然是主角，但不同的是，「我們開發的AlphaStar採用學習人類知識的模仿學習（Imitation Learning），」來解決在環境變數非常大的情況下，AI花費大量時間嘗試解法的問題。黃士傑解釋，AlphaStar在開發的前半年，完全採自我對戰方式來學習，但是，這個做法「出現了探索（Exploration）問題。」舉例來說，當AI代理人要在遊戲畫面中選擇正確的點，會花大量時間來嘗試所有的可能；假設「螢幕解析度是50x50，畫面中就包含了 2,500個點，而AI就會花大量時間，來嘗試這2,500個點，」由於選擇空間太大，造成學習障礙。因此，團隊決定讓AlphaStar向人類學習，採用模仿學習，讓AI代理人學習人類玩遊戲（ Replay），比如打造建築物的次序等。黃士傑指出，這就好比AlphaGo，以策略網路來學習人類棋譜一樣，而模仿學習，讓結構比AlphaGo複雜學多的AlphaStar，「大幅進步。」 AlphaStar的另一個特點，就是優化的搜尋架構。黃士傑指出，有別於AlphaGo，有套專門的搜尋架構來輔助找出致勝策略，AlphaStar直接將搜尋架構嵌入類神經網路中，融為一體。也因此，團隊花了許多時間來微調、優化搜尋架構，從行動延遲（Action deplays）開始，歷經指標網路（Pointer network）、Transformer，最後找出勝率最高的 Scattered connections（如下圖）。不只如此，「AlphaStar還有多重AI代理人的特色，透過這些代理人，來找出主要代理人的弱點，協助改進。」黃士傑解釋，由於星海爭霸II為即時策略遊戲，在地圖黑暗的情況下，AI代理人只能透過對手的反應，來擬定策略，有如賽局理論中的Nash均衡概念。因此，為了強化策略擬定，AlphaStar在訓練過程中，引進了Exploiter類型的AI代理人，目標是要贏過主要代理人，找出缺點，協助主要代理人改進。後來，AlphaStar在一場美國電競賽中，以4:1贏過世界冠軍，更在2019年10月，打敗 Battle.net平臺上99.8%的星海爭霸II活躍玩家，更在人族、神族和蟲族達到宗師等級。這個成果，也讓AlphaStar論文登上《自然》期刊，更鋪墊後來MuZero的基礎。堅持己愛，保持開放的心話鋒一轉，黃士傑指出，自己能有今日的成就，還歸功於堅持己愛。他從小熱愛圍棋，即使在臺灣師範大學攻讀博士時，也是圍棋社的一員，更與同學開發棋類電腦程式，堅持每年到國外參加電腦奧林匹亞競賽（Computer Olympiad）。而黃士傑好學的心態，讓他在國外參賽的過程中，打下了國際鏈結基礎。「我英文不是很好，但我喜歡問問題，」他指出，自己參加國際比賽時，喜歡與不同國家的研究員交談，特別是在2007年一場比賽，結識了日後的恩師，也是Erica共同開發者的法國電腦圍棋大師Rémi Coulom。當年，電腦圍棋程式大幅進步，不僅在9x9的小圍棋上，媲美六段的專業棋士，而由Ré mi Coulom開發的電腦圍棋程式Crazy Stone，更打敗了黃士傑。後來，黃士傑憑著對圍棋電腦程式的熱忱，透過視訊、Email與Rémi Coulom頻繁交流，開發一套線性模型圍棋程式Erica，更在2010年時，奪下電腦圍棋程式的第一名。在當年排行榜上，Erica是唯一一個只需要一臺8核心機器的電腦圍棋程式，而且在搜尋方法上，也採用不少特殊技巧，「這些技巧，包括如何選步等公式，後來都寫在AlphaGo論文中，至今仍沒有人能超越。」這場勝利，引起了當時DeepMind的首席科學家David Silver的注意，更親自邀請黃士傑加入DeepMind團隊。而他，也在兩年後入夥，成為DeepMind成員之一，開始進行AlphaGo專案。「除了保持熱忱，也要有顆開放的心，更要當一個Easy to work with的人。」他舉例，在執行AlphaGo專案時，團隊來了位25歲的成員Julian Schrittwieser。當時，黃士傑用自己的方法來修改圍棋程式Erica的策略網路，雖然他認為自己的做法沒問題，但Julian Schrittwieser則表示，用C++ Template重寫會更好，於是就花了1、2天時間修改。結果顯示，「演算法執行速度確實快很多，」黃士傑也從中學習到，要保持一顆敞開的心，欣賞他人優點，作為一個團隊中容易相處的人。此外，他也強調團隊合作的重要。「AI是個團隊合作的時代，就算是圖靈獎的得主，也是帶著一支團隊在開發。」就以 AlphaGo團隊為例，「每個人都扮演著關鍵角色，」比如負責訓練類神經網路的、連接TPU 的，甚至包括系統測試的，「多虧他們的專業知識，替我們抓出許多Bug，才能讓AlphaGo 不斷進步、寫下歷史，」黃士傑說。最後，他也總結，「很多巨大的飛躍，都起始於一小步。」他坦言，AlphaGo的進展也是一點一滴累積出來的；一切起始於他對圍棋的熱情，讓他結識了Rémi Coulom、開發出 Erica，後來更進入DeepMind，靠著前人在AI的研究心血，以及Google的深度學習團隊，才開發出擊敗人類圍棋冠軍的AlphaGo。「只要有熱情，不管做任何事，總有一天會帶來巨大的飛躍，」他肯定地說。文◎王若樸 https://www.ithome.com.tw/news/135433 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.227.139.247 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1579569998.A.D4C.html

推

k1k1832002

01/21 09:27, 4年前 , 1^F

01/21 09:27, 1^F

推

phix

01/21 09:28, 4年前 , 2^F

01/21 09:28, 2^F

推

linfon00

01/21 09:28, 4年前 , 3^F

01/21 09:28, 3^F

→

kaodio

01/21 09:29, 4年前 , 4^F

01/21 09:29, 4^F

推

LOWJ

01/21 09:30, 4年前 , 5^F

01/21 09:30, 5^F

推

neilisme

01/21 09:30, 4年前 , 6^F

01/21 09:30, 6^F

推

inertial

01/21 09:30, 4年前 , 7^F

01/21 09:30, 7^F

推

anyweather

01/21 09:31, 4年前 , 8^F

01/21 09:31, 8^F

推

BlacKlonely

01/21 09:32, 4年前 , 9^F

01/21 09:32, 9^F

推

MUENFENG

01/21 09:33, 4年前 , 10^F

01/21 09:33, 10^F

→

baiya

01/21 09:35, 4年前 , 11^F

01/21 09:35, 11^F

推

lycs0908

01/21 09:35, 4年前 , 12^F

01/21 09:35, 12^F

推

obdv

01/21 09:37, 4年前 , 13^F

01/21 09:37, 13^F

推

perlone

01/21 09:38, 4年前 , 14^F

01/21 09:38, 14^F

推

rcak801

01/21 09:38, 4年前 , 15^F

01/21 09:38, 15^F

→

dk1986

01/21 09:40, 4年前 , 16^F

01/21 09:40, 16^F

→

perlone

01/21 09:41, 4年前 , 17^F

01/21 09:41, 17^F

→

StarLeauge

01/21 09:42, 4年前 , 18^F

01/21 09:42, 18^F

推

BusterPosey

01/21 09:42, 4年前 , 19^F

01/21 09:42, 19^F

推

kinghtt

01/21 09:43, 4年前 , 20^F

01/21 09:43, 20^F

推

MUENFENG

01/21 09:44, 4年前 , 21^F

01/21 09:44, 21^F

→

bigcho

01/21 09:48, 4年前 , 22^F

01/21 09:48, 22^F

推

xsion

01/21 09:48, 4年前 , 23^F

01/21 09:48, 23^F

→

ASEVE

01/21 09:49, 4年前 , 24^F

01/21 09:49, 24^F

→

seemoon2000

01/21 09:50, 4年前 , 25^F

01/21 09:50, 25^F

→

jim924211

01/21 09:50, 4年前 , 26^F

01/21 09:50, 26^F

推

Taiwanotoko

01/21 09:50, 4年前 , 27^F

01/21 09:50, 27^F

推

fit8590

01/21 09:55, 4年前 , 28^F

01/21 09:55, 28^F

推

s0805744

01/21 09:57, 4年前 , 29^F

01/21 09:57, 29^F

→

s0805744

01/21 09:57, 4年前 , 30^F

01/21 09:57, 30^F

推

h73o1012

01/21 09:59, 4年前 , 31^F

01/21 09:59, 31^F

→

GABA

01/21 10:00, 4年前 , 32^F

01/21 10:00, 32^F

推

oncemore

01/21 10:00, 4年前 , 33^F

01/21 10:00, 33^F

推

johnny3

01/21 10:02, 4年前 , 34^F

01/21 10:02, 34^F

推

gt0112

01/21 10:02, 4年前 , 35^F

01/21 10:02, 35^F

推

WindSucker

01/21 10:03, 4年前 , 36^F

01/21 10:03, 36^F

推

ok771105

01/21 10:04, 4年前 , 37^F

01/21 10:04, 37^F

推

bollseven

01/21 10:05, 4年前 , 38^F

01/21 10:05, 38^F

推

Tenging

01/21 10:07, 4年前 , 39^F

01/21 10:07, 39^F

還有 26 則推文

推

yashiro111

01/21 11:02, 4年前 , 66^F

01/21 11:02, 66^F

→

yashiro111

01/21 11:02, 4年前 , 67^F

01/21 11:02, 67^F

→

icecold52

01/21 11:03, 4年前 , 68^F

01/21 11:03, 68^F

推

nanako81240

01/21 11:08, 4年前 , 69^F

01/21 11:08, 69^F

推

yeeroyuy

01/21 11:17, 4年前 , 70^F

01/21 11:17, 70^F

推

lvlonster

01/21 11:27, 4年前 , 71^F

01/21 11:27, 71^F

→

hotrain13

01/21 11:35, 4年前 , 72^F

01/21 11:35, 72^F

推

smalldata

01/21 11:48, 4年前 , 73^F

01/21 11:48, 73^F

推

discoveryray

01/21 12:06, 4年前 , 74^F

01/21 12:06, 74^F

推

j900414

01/21 12:14, 4年前 , 75^F

01/21 12:14, 75^F

推

t214312004

01/21 12:20, 4年前 , 76^F

01/21 12:20, 76^F

推

spritepeare

01/21 12:25, 4年前 , 77^F

01/21 12:25, 77^F

推

bitcch

01/21 12:36, 4年前 , 78^F

01/21 12:36, 78^F

推

nzxc

01/21 12:42, 4年前 , 79^F

01/21 12:42, 79^F

推

ComeThrough

01/21 12:47, 4年前 , 80^F

01/21 12:47, 80^F

推

justin521

01/21 12:49, 4年前 , 81^F

01/21 12:49, 81^F

推

wu1647

01/21 12:52, 4年前 , 82^F

01/21 12:52, 82^F

推

IntoHebe

01/21 13:07, 4年前 , 83^F

01/21 13:07, 83^F

→

IntoHebe

01/21 13:08, 4年前 , 84^F

01/21 13:08, 84^F

推

Aerci

01/21 13:17, 4年前 , 85^F

01/21 13:17, 85^F

推

diehard333

01/21 13:22, 4年前 , 86^F

01/21 13:22, 86^F

推

mocca000

01/21 13:26, 4年前 , 87^F

01/21 13:26, 87^F

推

konas

01/21 13:41, 4年前 , 88^F

01/21 13:41, 88^F

噓

a25785885

01/21 13:51, 4年前 , 89^F

01/21 13:51, 89^F

→

qaz12453

01/21 14:41, 4年前 , 90^F

01/21 14:41, 90^F

推

hope2801

01/21 14:42, 4年前 , 91^F

01/21 14:42, 91^F

推

zxxbbsex

01/21 14:55, 4年前 , 92^F

01/21 14:55, 92^F

噓

Ghamu

01/21 15:37, 4年前 , 93^F

01/21 15:37, 93^F

推

pjason

01/21 16:01, 4年前 , 94^F

01/21 16:01, 94^F

→

pjason

01/21 16:01, 4年前 , 95^F

01/21 16:01, 95^F

推

xhung

01/21 16:03, 4年前 , 96^F

01/21 16:03, 96^F

推

jiayuan

01/21 16:11, 4年前 , 97^F

01/21 16:11, 97^F

推

tingvictor

01/21 17:38, 4年前 , 98^F

01/21 17:38, 98^F

推

waiter337

01/21 18:02, 4年前 , 99^F

01/21 18:02, 99^F

推

noChance

01/21 18:30, 4年前 , 100^F

01/21 18:30, 100^F

推

losage

01/21 19:19, 4年前 , 101^F

01/21 19:19, 101^F

推

vvind

01/21 20:16, 4年前 , 102^F

01/21 20:16, 102^F

推

s4511981

01/21 22:27, 4年前 , 103^F

01/21 22:27, 103^F

推

sufate

04/03 22:46, 4年前 , 104^F

04/03 22:46, 104^F

推

HowLeeHi

04/05 18:00, 4年前 , 105^F

04/05 18:00, 105^F

‣ 返回看板[ Gossiping ] 綜合

‣ 更多 nk11208z 的文章

文章代碼(AID): #1U9bDErC (Gossiping)