[新聞] AlphaGo之父黃士傑揭露DeepMind通用AI布局,最終目標要協助人類解決全球暖化難題

看板Gossiping作者 (小魯)時間4年前 (2020/01/21 09:26), 編輯推噓75(77226)
留言105則, 96人參與, 4年前最新討論串1/1
ithome AlphaGo之父黃士傑揭露DeepMind通用AI布局,最終目標要協助人類解決全球暖化難題 文/王若樸 | 2020-01-20發表 「我們的目標,是要打造通用AI,來協助人類解決世界上的難題,」DeepMind資深工程師 、AlphaGo之父黃士傑雙眼炯炯有神地說。他去年12月底來臺演講時,分享了自己與 DeepMind的觀點,更指出「AI也許會提供我們從未想過的方法,幫助我們解決全球暖化、 能源不足等問題。」 而DeepMind押寶通用AI的新進展,就是去年11月底發表的MuZero,採強化學習,成功挑戰 AI難以致勝的雅達利(Atari)遊戲,一舉在57種雅達利遊戲中達到SOTA等級,更在國際 象棋、日本將棋和圍棋等複雜的棋盤遊戲中,超越前代精通這三種棋藝的AlphaZero。 其中的關鍵,就是MuZero可從遊戲中,自行找出規則。進一步來說,MuZero演算法結合了 樹狀搜尋架構和學習模型,當它接收到棋盤影像或雅達利遊戲螢幕截圖後,便不斷地更新 迭代,來決定下一步的策略、價值函數,以及即時獎勵。MuZero正是利用這個方法,摸索 出「精準的規則,」DeepMind在論文中寫道。 黃士傑比喻,「MuZero就好比會做夢的AlphaGo。」有別於需要真實棋譜資料的AlphaGo, MuZero不需輸入任何真實棋譜,就可自行建構棋盤。這個方法,不需要每走一步就執行一 次模擬器(Simulator),也因此「加速了類神經網路的學習速度。」在黃士傑看來, MuZero打開了一扇窗,讓AlphaGo的方法可運用到更多決策領域,是邁向通用AI的里程碑 。 DeepMind布局通用AI,從學習人類經驗的AlphaGo邁出第一步 DeepMind對通用AI的布局,還可從圍棋說起。2012年,黃士傑受邀加入DeepMind,2年後 ,Google併購DeepMind,決定發展圍棋AI,來挑戰電腦尚未突破的領域。 這套圍棋AI,就是家喻戶曉的AlphaGo。AlphaGo以黃士傑多年前開發的單機版圍棋程式 Erica為基礎,為了打造媲美人類專家的圍棋AI,DeepMind決定採用新方法,也就是模仿 人類思考的深度學習類神經網路,來改造線性模型的Erica。 於是,AlphaGo專案負責人David Silver,要求黃士傑以C++重寫Erica,先打造一套基本 模型,再來測試類神經網路。後來,Google Brain的深度學習專家Chris Maddison和 llya Sutskever也加入AlphaGo團隊,一起研發這套圍棋AI。 團隊首先利用人類棋譜來訓練AlphaGo的策略網路(Policy Network),也就是下棋的策 略,再利用價值網路(Value Network)來判斷局勢、預測贏家。這一點,再加上強化學 習,讓AlphaGo不斷自我對奕、自我學習。 後來,2016年,AI專用硬體如TPU逐漸成熟,大幅提高AlphaGo的勝率。經過無數次反覆訓 練,AlphaGo先是贏過歐洲圍棋冠軍樊麾,登上《自然》期刊,又陸續贏過世界圍棋冠軍 李世石、柯潔,成功向世人證明了AI的潛力。 AI再演進,AlphaZero不需人類經驗就能精通三種棋藝 AlphaGo打敗世界圍棋冠軍後,團隊乘著這股氣勢,展開另一項專案,打造出不需要海量 訓練資料,就能自我訓練、學習規則的AI模型AlphaGo Zero。AlphaGo Zero能從零開始, 不需人為干預,也不需要真實棋譜資料,就可自學下圍棋、摸索出關鍵知識,而且,經過 3天自我對奕490萬次,就以100比0完勝打敗李世石的AlphaGo。 而在短短48天後,團隊進一步開發出能下圍棋、日本將棋和西洋棋的AlphaZero。 AlphaZero維持了AlphaGo Zero的特性,一樣結合蒙地卡羅樹搜尋方法、能從零開始自我 學習,但不同的是,在開發過程中,團隊使用了5千個第一代TPU來產生遊戲,再利用64個 第二代TPU來訓練類神經網路。 結果,在24小時內,透過自我學習的AlphaZero,就打敗了三種棋類的電腦程式冠軍,也 就是Stockfish、elmo,以及3天版本的AlphaGo Zero。而記載對戰結果的AlphaZero論文 ,更登上《科學》封面。 AlphaStar靠模仿學習面對新關卡,挑戰更高難度的即時策略遊戲星海爭霸II 不只在棋類上下功夫,DeepMind也將領域擴大到更有挑戰性的電玩遊戲,也就是即時策略 遊戲星海爭霸II,來驗證強化學習的能力。這次,強化學習依然是主角,但不同的是,「 我們開發的AlphaStar採用學習人類知識的模仿學習(Imitation Learning),」來解決 在環境變數非常大的情況下,AI花費大量時間嘗試解法的問題。 黃士傑解釋,AlphaStar在開發的前半年,完全採自我對戰方式來學習,但是,這個做法 「出現了探索(Exploration)問題。」舉例來說,當AI代理人要在遊戲畫面中選擇正確 的點,會花大量時間來嘗試所有的可能;假設「螢幕解析度是50x50,畫面中就包含了 2,500個點,而AI就會花大量時間,來嘗試這2,500個點,」由於選擇空間太大,造成學習 障礙。 因此,團隊決定讓AlphaStar向人類學習,採用模仿學習,讓AI代理人學習人類玩遊戲( Replay),比如打造建築物的次序等。黃士傑指出,這就好比AlphaGo,以策略網路來學 習人類棋譜一樣,而模仿學習,讓結構比AlphaGo複雜學多的AlphaStar,「大幅進步。」 AlphaStar的另一個特點,就是優化的搜尋架構。黃士傑指出,有別於AlphaGo,有套專門 的搜尋架構來輔助找出致勝策略,AlphaStar直接將搜尋架構嵌入類神經網路中,融為一 體。也因此,團隊花了許多時間來微調、優化搜尋架構,從行動延遲(Action deplays) 開始,歷經指標網路(Pointer network)、Transformer,最後找出勝率最高的 Scattered connections(如下圖)。 不只如此,「AlphaStar還有多重AI代理人的特色,透過這些代理人,來找出主要代理人 的弱點,協助改進。」黃士傑解釋,由於星海爭霸II為即時策略遊戲,在地圖黑暗的情況 下,AI代理人只能透過對手的反應,來擬定策略,有如賽局理論中的Nash均衡概念。因此 ,為了強化策略擬定,AlphaStar在訓練過程中,引進了Exploiter類型的AI代理人,目標 是要贏過主要代理人,找出缺點,協助主要代理人改進。 後來,AlphaStar在一場美國電競賽中,以4:1贏過世界冠軍,更在2019年10月,打敗 Battle.net平臺上99.8%的星海爭霸II活躍玩家,更在人族、神族和蟲族達到宗師等級。 這個成果,也讓AlphaStar論文登上《自然》期刊,更鋪墊後來MuZero的基礎。 堅持己愛,保持開放的心 話鋒一轉,黃士傑指出,自己能有今日的成就,還歸功於堅持己愛。他從小熱愛圍棋,即 使在臺灣師範大學攻讀博士時,也是圍棋社的一員,更與同學開發棋類電腦程式,堅持每 年到國外參加電腦奧林匹亞競賽(Computer Olympiad)。 而黃士傑好學的心態,讓他在國外參賽的過程中,打下了國際鏈結基礎。「我英文不是很 好,但我喜歡問問題,」他指出,自己參加國際比賽時,喜歡與不同國家的研究員交談, 特別是在2007年一場比賽,結識了日後的恩師,也是Erica共同開發者的法國電腦圍棋大 師Rémi Coulom。 當年,電腦圍棋程式大幅進步,不僅在9x9的小圍棋上,媲美六段的專業棋士,而由Ré mi Coulom開發的電腦圍棋程式Crazy Stone,更打敗了黃士傑。 後來,黃士傑憑著對圍棋電腦程式的熱忱,透過視訊、Email與Rémi Coulom頻繁交流, 開發一套線性模型圍棋程式Erica,更在2010年時,奪下電腦圍棋程式的第一名。 在當年排行榜上,Erica是唯一一個只需要一臺8核心機器的電腦圍棋程式,而且在搜尋方 法上,也採用不少特殊技巧,「這些技巧,包括如何選步等公式,後來都寫在AlphaGo論 文中,至今仍沒有人能超越。」 這場勝利,引起了當時DeepMind的首席科學家David Silver的注意,更親自邀請黃士傑加 入DeepMind團隊。而他,也在兩年後入夥,成為DeepMind成員之一,開始進行AlphaGo專 案。 「除了保持熱忱,也要有顆開放的心,更要當一個Easy to work with的人。」他舉例, 在執行AlphaGo專案時,團隊來了位25歲的成員Julian Schrittwieser。當時,黃士傑用 自己的方法來修改圍棋程式Erica的策略網路,雖然他認為自己的做法沒問題,但Julian Schrittwieser則表示,用C++ Template重寫會更好,於是就花了1、2天時間修改。 結果顯示,「演算法執行速度確實快很多,」黃士傑也從中學習到,要保持一顆敞開的心 ,欣賞他人優點,作為一個團隊中容易相處的人。此外,他也強調團隊合作的重要。 「AI是個團隊合作的時代,就算是圖靈獎的得主,也是帶著一支團隊在開發。」就以 AlphaGo團隊為例,「每個人都扮演著關鍵角色,」比如負責訓練類神經網路的、連接TPU 的,甚至包括系統測試的,「多虧他們的專業知識,替我們抓出許多Bug,才能讓AlphaGo 不斷進步、寫下歷史,」黃士傑說。 最後,他也總結,「很多巨大的飛躍,都起始於一小步。」他坦言,AlphaGo的進展也是 一點一滴累積出來的;一切起始於他對圍棋的熱情,讓他結識了Rémi Coulom、開發出 Erica,後來更進入DeepMind,靠著前人在AI的研究心血,以及Google的深度學習團隊, 才開發出擊敗人類圍棋冠軍的AlphaGo。「只要有熱情,不管做任何事,總有一天會帶來 巨大的飛躍,」他肯定地說。 文◎王若樸 https://www.ithome.com.tw/news/135433 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.227.139.247 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1579569998.A.D4C.html

01/21 09:27, 4年前 , 1F
解決人類暖化問題的答案就是解決人類
01/21 09:27, 1F

01/21 09:28, 4年前 , 2F
真的是讓人類數量減少最好 天網來了
01/21 09:28, 2F

01/21 09:28, 4年前 , 3F
我還以為是alpha go的滑鼠
01/21 09:28, 3F

01/21 09:29, 4年前 , 4F
阿諾會保護大家的
01/21 09:29, 4F

01/21 09:30, 4年前 , 5F
解決人類最快
01/21 09:30, 5F

01/21 09:30, 4年前 , 6F
消滅一半人類應該就差不多了
01/21 09:30, 6F

01/21 09:30, 4年前 , 7F
解決方法就一樓所提,還要用到AI喔…
01/21 09:30, 7F

01/21 09:31, 4年前 , 8F
直覺跟一樓想的一樣耶 電影要上演了
01/21 09:31, 8F

01/21 09:32, 4年前 , 9F
阿發斯蓋虐啪
01/21 09:32, 9F

01/21 09:33, 4年前 , 10F
這片我看過 機械公敵有演過
01/21 09:33, 10F

01/21 09:35, 4年前 , 11F
天網要上線了
01/21 09:35, 11F

01/21 09:35, 4年前 , 12F
還以為揭露deepfake
01/21 09:35, 12F

01/21 09:37, 4年前 , 13F
乾 這可以拍傳記片惹
01/21 09:37, 13F

01/21 09:38, 4年前 , 14F
幹 這不就天網
01/21 09:38, 14F

01/21 09:38, 4年前 , 15F
這我看過 天網嘛對不對
01/21 09:38, 15F

01/21 09:40, 4年前 , 16F
解決人類(O 解決暖化問題(O
01/21 09:40, 16F

01/21 09:41, 4年前 , 17F
比阿發狗還強 還能自我學習
01/21 09:41, 17F

01/21 09:42, 4年前 , 18F
解決人類就是要消滅人類
01/21 09:42, 18F

01/21 09:42, 4年前 , 19F
方法:消滅人類
01/21 09:42, 19F

01/21 09:43, 4年前 , 20F
審判日倒數計時開始
01/21 09:43, 20F

01/21 09:44, 4年前 , 21F
下一步是美國政府會拿去計算實際戰場
01/21 09:44, 21F

01/21 09:48, 4年前 , 22F
先去問優格
01/21 09:48, 22F

01/21 09:48, 4年前 , 23F
要小心一個瘋女人帶著小毛頭殺到你家喔
01/21 09:48, 23F

01/21 09:49, 4年前 , 24F
末日倒數計時
01/21 09:49, 24F

01/21 09:50, 4年前 , 25F
靠北 這最佳解答電影有演過 我記得
01/21 09:50, 25F

01/21 09:50, 4年前 , 26F
我想的跟一樓一樣XD
01/21 09:50, 26F

01/21 09:50, 4年前 , 27F
天網0.1
01/21 09:50, 27F

01/21 09:55, 4年前 , 28F
ai:消滅人類
01/21 09:55, 28F

01/21 09:57, 4年前 , 29F
跳脫人類角度的話 感覺得出殺光人類做
01/21 09:57, 29F

01/21 09:57, 4年前 , 30F
結論蠻有可能的
01/21 09:57, 30F

01/21 09:59, 4年前 , 31F
然後出現讓人不結婚交配的pornhub
01/21 09:59, 31F

01/21 10:00, 4年前 , 32F
發展天網
01/21 10:00, 32F

01/21 10:00, 4年前 , 33F
土博之光
01/21 10:00, 33F

01/21 10:02, 4年前 , 34F
解決全球暖化的答案:消滅人類
01/21 10:02, 34F

01/21 10:02, 4年前 , 35F
最後發現要解決人類
01/21 10:02, 35F

01/21 10:03, 4年前 , 36F
Hell sj
01/21 10:03, 36F

01/21 10:04, 4年前 , 37F
01/21 10:04, 37F

01/21 10:05, 4年前 , 38F
解決人類啊
01/21 10:05, 38F

01/21 10:07, 4年前 , 39F
解決人類 3
01/21 10:07, 39F
還有 26 則推文
01/21 11:02, 4年前 , 66F
Alpha star 開直播 應開可以賺不少經
01/21 11:02, 66F

01/21 11:02, 4年前 , 67F
01/21 11:02, 67F

01/21 11:03, 4年前 , 68F
天網已經誕生了 審判日是幾號?? XD
01/21 11:03, 68F

01/21 11:08, 4年前 , 69F
解決人類最快
01/21 11:08, 69F

01/21 11:17, 4年前 , 70F
那就是解決人類啊
01/21 11:17, 70F

01/21 11:27, 4年前 , 71F
AI得到的結論一定是解決人類的啊。。。
01/21 11:27, 71F

01/21 11:35, 4年前 , 72F
反觀亞洲多數企業,目標都是錢
01/21 11:35, 72F

01/21 11:48, 4年前 , 73F
太強了 只能跪
01/21 11:48, 73F

01/21 12:06, 4年前 , 74F
完了
01/21 12:06, 74F

01/21 12:14, 4年前 , 75F

01/21 12:20, 4年前 , 76F
怕爆
01/21 12:20, 76F

01/21 12:25, 4年前 , 77F
奧創
01/21 12:25, 77F

01/21 12:36, 4年前 , 78F
這種謙虛才是最強大的
01/21 12:36, 78F

01/21 12:42, 4年前 , 79F
天網前身 怕豹
01/21 12:42, 79F

01/21 12:47, 4年前 , 80F
天網
01/21 12:47, 80F

01/21 12:49, 4年前 , 81F
這部我看過 他會開始殺人
01/21 12:49, 81F

01/21 12:52, 4年前 , 82F
消滅人類,末日來臨
01/21 12:52, 82F

01/21 13:07, 4年前 , 83F
不同的遊戲風格變不同代理人 這94以後AI
01/21 13:07, 83F

01/21 13:08, 4年前 , 84F
更換不同人格的原型吧
01/21 13:08, 84F

01/21 13:17, 4年前 , 85F
會做夢的AI. 酷
01/21 13:17, 85F

01/21 13:22, 4年前 , 86F
解決人類就是解決地球問題
01/21 13:22, 86F

01/21 13:26, 4年前 , 87F
問優格這個故事好耳熟 哪裡來的去了
01/21 13:26, 87F

01/21 13:41, 4年前 , 88F
薩諾斯可能給出答案了
01/21 13:41, 88F

01/21 13:51, 4年前 , 89F
ai盲只會看電影 大喊電腦滅世 蠢
01/21 13:51, 89F

01/21 14:41, 4年前 , 90F
這部不就是機械公敵嗎~最後答案就是..
01/21 14:41, 90F

01/21 14:42, 4年前 , 91F
01/21 14:42, 91F

01/21 14:55, 4年前 , 92F
結果發現溫室效應只是地球溫度週期而已
01/21 14:55, 92F

01/21 15:37, 4年前 , 93F
幹 暖化的解法勒= = 通篇都講ai而已啊= =
01/21 15:37, 93F

01/21 16:01, 4年前 , 94F
天網無誤…拜託不要在叫ai替人類解決什麼
01/21 16:01, 94F

01/21 16:01, 4年前 , 95F
了,可以叫他學煮菜啊
01/21 16:01, 95F

01/21 16:03, 4年前 , 96F
太神了~~~
01/21 16:03, 96F

01/21 16:11, 4年前 , 97F
完了 最佳解是解決人類
01/21 16:11, 97F

01/21 17:38, 4年前 , 98F
電影看多了 我知道接下來會發生什麼事
01/21 17:38, 98F

01/21 18:02, 4年前 , 99F
減少溫室 減少人類大便 全部上肛塞(O)
01/21 18:02, 99F

01/21 18:30, 4年前 , 100F
AI:人類太多了
01/21 18:30, 100F

01/21 19:19, 4年前 , 101F
解決難題就是解決人類,結案
01/21 19:19, 101F

01/21 20:16, 4年前 , 102F
easy to work with
01/21 20:16, 102F

01/21 22:27, 4年前 , 103F
解決暖化問題?武漢廢言做得不錯
01/21 22:27, 103F

04/03 22:46, 4年前 , 104F
AI:42
04/03 22:46, 104F

04/05 18:00, 4年前 , 105F
AI: 其實就是病毒?
04/05 18:00, 105F
文章代碼(AID): #1U9bDErC (Gossiping)