[轉錄]加藤英樹談圍棋AI的過去、現在與未來(2)

看板GO作者 (TIME WILL TELL)時間6年前 (2017/11/03 16:49), 編輯推噓2(204)
留言6則, 5人參與, 6年前最新討論串1/1
加藤英樹談圍棋AI的過去.現在與未來(2) http://koubokukei.blogspot.tw/2017/11/blog-post_2.html 價值網路就是是阿發夠強大的秘密 星合: 參加世界電腦圍棋公開賽時的版本是把參加夢百合杯時的版本再升級過的嗎? 加藤: 首先就是從15.0版升級到了15.3版。現在的圍棋AI就是在價值網路(以下簡稱 VN).... 星合: 甚麼叫VN啊? 加藤: 不好意思。VN就是利用深度學習方法做出來一種能夠推算出某個局面下黑棋看到的勝率 是多少的神經網路(模仿人類神經細胞的一種資訊處理系統)。就是阿發夠把這種革命性 的手法帶入電腦圍棋界的。 星合: 所以可以說這就是阿發夠或近來的圍棋AI可以這麼強大的秘密對嗎? 加藤: 在使用VN之前,電腦圍棋大約與職業棋士相差二、三子程度,但這二、三子之差其實是 很巨大的障礙。 大橋: 的確如此。我幫忙補充一下,大家可能都覺得圍棋AI是光靠深度學習就變強的,但其實 在阿發夠之前的Zen11.4版也用過深度學習法。所以正確來說,電腦圍棋是使用深 度學習法來建立出VN,才一口氣增強二子以上的棋力的。 星合: 常常聽到人說深度學習法,但它到底是甚麼樣的東西? 加藤: 且讓我稍微來說明一下VN吧。在某個局面下,電腦會去模擬哪一方會獲勝,換句話說, 就是預測誰會贏。為了進行預測,就要使用所謂的策略網路(以下簡稱PN)。要是沒有 PN,也不會有VN。 星合: ...是喔。 大橋: 這聽起來是很難沒錯,不過也是想了解電腦圍棋中很重要的地方。 加藤: 然後,我就要來說明PN了。首先,深度學習是一種機械學習的手法。太過詳細的東西我 就不在這裡解釋了,簡單來說,就是這種方法可以「模仿人類」,而且可以學得非常好。 舉例來說,最有名的就是利用深度學習而能讓AI辨認、認識人類或動物的面貌。比如說 ,給電腦看過幾萬甚至是幾十萬畫面上是貓熊或是猩猩這種有加上標籤的圖片,而讓它去 進行深度學習,電腦就會學習到這些圖片的特徵,AI就能模仿人類去辨別出貓熊與大猩 猩的面貌差異。 星合: 換句話說,深度學習就是由人類給予資料來教電腦學習是嗎? 加藤: 現在雖然也有使用不同的學習手法,但根據使用給予標籤的學習資料來看,的確就是這樣 沒錯。重要的是,隨著學習的時間增加,這種方法可以達到做出超越人類正確性的判斷之 水準。 星合: 就是精度很高對嗎? 加藤: 對,這點很關鍵。然後將這種手法應用到圍棋上,就是要讓電腦把各種局面與這種局面下 高手所下的棋組成一組資料學習起來。然後再讓它學習幾千萬的局面。順便一提,這個時 候讓它學習的棋譜就是棋力高強的人的棋譜。因為學習過這些棋譜,它就能用高精度的方 式預測出人類所下的棋。這就是PN的原理。這個部分,其實在阿發夠的論文問世前的一 年以上就有人發表過了。 大橋: 光是使用PN就能有相當強大的棋力了。 加藤: 如果使用PN來讓電腦從某個局面開始下到最後,就會像人類對弈一樣,會出現互有輸贏 的狀況。所以電腦就用亂數來決定怎麼挑選次一手,所以結論就不只一個;但反覆去執行 這樣的流程幾萬伺候,就能算出那個局面下的勝率。但這樣每次在對局中去計算勝率的時 間實在太長,而讓寫程式的人放棄這樣反覆計算幾萬次的手法。然而,大衛.席爾瓦先生 卻想到了可以將電腦下到最後的模擬結果另外讓別的神經網路學習起來,並且在阿發夠上 實踐成功。 星合: 這就是您一開始說明過、用來找出勝率的VN對吧。這樣的想法非常嶄新嗎? 加藤: 老實說,其實這個想法應該是誰都想得到,但一般卻不會這樣做。這是因為這實在太消耗 時間了。至少得花上一年。但是DeepMind公司的母公司可是股溝公司,因此他們在硬體上 可以豪華地使用GPU這種東西。而且他們使用了GPU來進行通常50倍以上的計算, 所以一週左右就完成了這個學習了。真不知道這叫數量暴力還是金錢暴力啊(笑)。 星合: 就是股溝是世界級的大企業,才能這樣玩吧。 加藤: 沒錯。股溝在自然雜誌上所刊登的論文,其實並不是一般的大學或是學術研究機構的規模 能夠模仿出來的。由於Zen是我和尾島先生私人開發出來的,所以尾島先生在看完股溝 的論文後,就判斷我們無法再這樣靠私人的方式進行開發,只好透過KADOKAWA的 關係向多玩國(你摳你摳的母公司)公司請求協助。於是多玩國的川上量生會長就把這個 開發案當作全日本性的專案,並把日本棋院也一起拉了進來,才開始了DZG專案。 === -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.173.80 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1509698988.A.CB0.html

11/03 18:41, 6年前 , 1F
可是google用的不是一種叫做TPU的東西 比GPU又強幾十倍
11/03 18:41, 1F

11/03 19:02, 6年前 , 2F
推翻譯,但是公司的名稱也翻的太惡意,不太舒服
11/03 19:02, 2F

11/03 19:02, 6年前 , 3F
TPU由於是8-bit,只用於下棋,不用於訓練,論文有寫
11/03 19:02, 3F

11/03 19:15, 6年前 , 4F
但明年開始,應該大公司就大量採用FPGA來強化學習了
11/03 19:15, 4F

11/04 12:21, 6年前 , 5F
要看用途TPU是特定用途比GPU強很多但泛用性應GPU較好
11/04 12:21, 5F

11/04 18:06, 6年前 , 6F
硬翻中文,有點不好看,不如維持英文
11/04 18:06, 6F
文章代碼(AID): #1P_2siom (GO)