Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

看板GO作者 (ANSI lover)時間6年前 (2017/11/11 10:22), 6年前編輯推噓20(20034)
留言54則, 20人參與, 6年前最新討論串7/8 (看更多)
原文恕刪 我相信原po是真心很認真的想討論 也很歡這討論的風氣 但是,原po的問題卻得到一個幾乎大家圍攻的結果 我來舉個例子說明為什麼大家會覺得原po在鑽牛角尖好了 今天我們把問題換成排序 假設有一群剛發明電腦的工程師,現在在建構最初的演算法 他們試圖解決排書櫃的問題 於是他們先試著模仿人類的排書的方法,比方說排 「4, 5, 6, 1, 3, 2」 的時候,人類會把 4,5,6 一起處理 (回憶一下人是怎麼處理書架上的書的) 於是他們弄出了一套演算法,但是效能不怎樣 對應圍棋AI的例子,傳統的Zen,CrazyStone 就是這樣的算法 然後突然有一個天材,發現了 Bubble Sort 一個電腦按自己的方式排,又借鏡了一部份人類排序的經驗(一直把小的往前丟)的算法 相當於 AlphaGo 出現了 最後,另一群天材把這個演算法優化成 Quick Sort 一個人類在現實中排書絕對不可能用到的演算法 相當於 AlphaGo Zero (小朋友學棋再怎樣也不會教他從亂丟開始,對吧?) 發了篇論文說明他們整個演算法共同的地方只有一段「交換位子」的函式 其它都不一樣 換成 AlphaGo ,就是告訴你,我都是用機器學習作方法,但是其它都不一樣 然後原po現在的質疑在一般人的眼中看起來像是: Quick Sort還是用到了人類排序書櫃的經驗! 當然大家會覺得莫名 有人會有 Quick Sort 來排書架嗎? 大概是這樣 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.185.153.145 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1510366956.A.69B.html

11/11 10:29, 6年前 , 1F
我覺的是他一開始舉了一個錯誤的例子(棋局停止),突
11/11 10:29, 1F

11/11 10:29, 6年前 , 2F
顯他不了解圍棋規則,導致後續討論就充滿了火藥味了
11/11 10:29, 2F

11/11 10:29, 6年前 , 3F
進而讓他的原意失焦了
11/11 10:29, 3F

11/11 10:54, 6年前 , 4F
風向就是從那個棋子不能自殺的時候被帶起的QQ
11/11 10:54, 4F

11/11 11:49, 6年前 , 5F
我真的有用quick sort排過一大堆亂掉的書...
11/11 11:49, 5F

11/11 11:49, 6年前 , 6F
不過大概不影響你的舉例啦
11/11 11:49, 6F

11/11 12:08, 6年前 , 7F
人類可以學sort,但是不能學神經網路,有種來把
11/11 12:08, 7F

11/11 12:10, 6年前 , 8F
神經網路背起來啊
11/11 12:10, 8F

11/11 12:12, 6年前 , 9F
XD 這舉例好傳神耶 但原po還是不懂quicksort阿
11/11 12:12, 9F

11/11 12:17, 6年前 , 10F
t大都說數學統計出身會learning,說他不會QS會不會
11/11 12:17, 10F

11/11 12:17, 6年前 , 11F
太侮辱人
11/11 12:17, 11F

11/11 12:58, 6年前 , 12F
人類用Quick Sort幹嘛啦XDDD只會比較煩而已
11/11 12:58, 12F

11/11 14:04, 6年前 , 13F
譬喻不錯 但原po懷疑是有理也沒錯
11/11 14:04, 13F

11/11 14:11, 6年前 , 14F
quicksort是啥…是否可以解釋一下
11/11 14:11, 14F

11/11 14:32, 6年前 , 15F
隨機取中點 小丟左大丟右 遞迴到每區剩一個
11/11 14:32, 15F

11/11 16:36, 6年前 , 16F
人類比較偏向insert或select不過不影響你的舉例XD
11/11 16:36, 16F

11/11 17:33, 6年前 , 17F
推,好比煉金術士和化學家的關係,化學家有參考煉金術士
11/11 17:33, 17F

11/11 17:36, 6年前 , 18F
的實驗結果,用完全不同的一套理論體系去篩選、解釋
11/11 17:36, 18F

11/11 17:44, 6年前 , 19F
最終產生新的一套科學事實,裡面雖有部分認定煉金術士經驗
11/11 17:44, 19F

11/11 17:46, 6年前 , 20F
也符合科學事實,但這顯然跟認同煉金術士的經驗是兩回事
11/11 17:46, 20F

11/11 18:46, 6年前 , 21F
板主舉的例子,從 Bubble Sort 變成 Quick Sort, 是屬於我
11/11 18:46, 21F

11/11 18:47, 6年前 , 22F
說的模型不同. 而不是 master 與 Zero 的最大差別在參數優
11/11 18:47, 22F

11/11 18:47, 6年前 , 23F
11/11 18:47, 23F

11/11 18:48, 6年前 , 24F
參數優化, Zero 不同於 master, 沒用到人類棋譜,這沒爭議
11/11 18:48, 24F

11/11 18:49, 6年前 , 25F
但在模型上, 並沒有太大的改變
11/11 18:49, 25F

11/11 18:49, 6年前 , 26F
我要質疑的是, 這模型是否用到人類圍棋知識
11/11 18:49, 26F
呃… 就算沒讀過論文,也應該看過相關報導吧 兩者用的模型天差地遠 詳細要討論要另開一篇文,請自行爬文或google

11/11 18:51, 6年前 , 27F
模型差別很大啊
11/11 18:51, 27F

11/11 18:53, 6年前 , 28F
我可不可以問一下tl一直要追究這個問題的原因是甚麼?
11/11 18:53, 28F

11/11 19:07, 6年前 , 29F
Zero只用一個policy network這樣模型的差別還不夠明顯嗎?
11/11 19:07, 29F
※ 編輯: staristic (111.185.153.145), 11/11/2017 20:56:37

11/11 21:05, 6年前 , 30F
master哪有跟zero模型天差地遠
11/11 21:05, 30F

11/11 21:09, 6年前 , 31F
差rollout和一開始是監督學習而已,神經網路一樣
11/11 21:09, 31F
還有原本兩個網路(價值網路、走子網路)變成一個不是? 我個人會覺得差非常大的原因在此。兩個變成一個@@ ※ 編輯: staristic (111.185.153.145), 11/11/2017 21:14:18

11/11 21:14, 6年前 , 32F
你搞錯了吧,master就已經合併了
11/11 21:14, 32F
這樣的話我前面說的天差地別確實要收回來 我也沒辦法再說什麼了 ※ 編輯: staristic (111.185.153.145), 11/11/2017 21:17:17

11/11 21:54, 6年前 , 33F
其實主要差別只有訓練吃的棋譜不一樣
11/11 21:54, 33F
我有回去找文章 基本上這邊是我搞錯了Orz ※ 編輯: staristic (111.185.153.145), 11/11/2017 22:22:41

11/12 00:35, 6年前 , 34F
一樣的 他們只是選用了不同參數 給了不同資源 因為他們想
11/12 00:35, 34F

11/12 00:36, 6年前 , 35F
試試看Master的模型能不能通用 但是我覺得實作的內部可能還
11/12 00:36, 35F

11/12 00:36, 6年前 , 36F
是差很多 因為如果事情只是rollout跟開始的監督部分 就不會
11/12 00:36, 36F

11/12 00:36, 6年前 , 37F
需要請aja把有內建圍棋知識的code拿掉了 想必那邊有很多細
11/12 00:36, 37F

11/12 00:37, 6年前 , 38F
微的優化是他們沒講(也不開源,所以應該就是不會講了)
11/12 00:37, 38F

11/12 00:46, 6年前 , 39F
意思是這部份反正他不開源,只能相信Deepmind的宣佈
11/12 00:46, 39F

11/12 00:46, 6年前 , 40F
再吵也沒意義,對吧?
11/12 00:46, 40F

11/12 00:48, 6年前 , 41F
就算他是先射箭再畫靶,你也沒辦法啊XD
11/12 00:48, 41F

11/12 01:28, 6年前 , 42F
這個其實有個方法 就是別人照著DM的paper實作 做不出來攻擊
11/12 01:28, 42F

11/12 01:28, 6年前 , 43F
他們, 但目前沒有太多公司有這麼強的運算資源做這種驗證...
11/12 01:28, 43F

11/12 01:36, 6年前 , 44F
大概只有騰訊出的起 願不願意花就難講了
11/12 01:36, 44F

11/12 01:36, 6年前 , 45F
google自己搞TPU就先省一大筆
11/12 01:36, 45F

11/12 03:58, 6年前 , 46F
光訓練一個20block res-net,沒百張1080ti就免談...
11/12 03:58, 46F

11/12 23:40, 6年前 , 47F
master的時候還是有兩個網路啦 zero才只有一個
11/12 23:40, 47F

11/13 00:22, 6年前 , 48F
樓上可參考HeterCompute的筆記:[情報] 黃博士今日演講內容
11/13 00:22, 48F

11/13 01:35, 6年前 , 49F
感謝,確實論文也是這樣寫的沒錯
11/13 01:35, 49F

11/13 01:51, 6年前 , 50F
我發現搞錯的不止我一個,稍微得到一點安慰XD
11/13 01:51, 50F

11/13 01:55, 6年前 , 51F
XDD
11/13 01:55, 51F

11/16 02:01, 6年前 , 52F
其實我不懂質疑論文標題有甚麼意義......
11/16 02:01, 52F

11/16 02:02, 6年前 , 53F
當然是可以質疑拉...... 頂多就是用字不精確罷了
11/16 02:02, 53F

11/16 02:03, 6年前 , 54F
給人家的感覺就是好像網路筆戰抓錯字一樣......
11/16 02:03, 54F
文章代碼(AID): #1Q1bxiQR (GO)
討論串 (同標題文章)
文章代碼(AID): #1Q1bxiQR (GO)