Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

看板GO作者 (台灣加油)時間6年前 (2017/11/11 03:13), 6年前編輯推噓11(13242)
留言57則, 16人參與, 6年前最新討論串6/8 (看更多)
※ 引述《capita (小明)》之銘言: : 改用 ResNet 因為是最當紅的神經網路模型,大家都說好,到處拿第一, : 只要是做機器學習,不改來用看看才奇怪,這跟圍棋一點關係也沒有。 : 或是三維的圍棋,都可以照樣修改後讓電腦去自行修煉成大師。 : 在一些細部結構上,DeepMind 也試過不同的參數,其中比較好的結果, : 才變成現在的版本,這種工程調整,跟人類的圍棋知識也沒有關係。 : 所以這不是圍棋專用的算法,如果這樣還要說是用到了人類圍棋知識, : 那就隨便他了。 很抱歉, 又來礙眼了. 如果認為我是來亂的, 那請退出, 不要浪費您的時間. 很多分散在推文可能講不清楚, 容我用最後一篇寫跟這主題相關的. 但如果板主認為這樣的文章不適合出現在這板, 請刪掉或來信叫我自刪. 首先很簡單的澄清, 我已經有兩個兒子了, 大概很難被定義成屁孩. 兒子大到覺得老爸陪他去學棋是丟臉的事. 原本跟他說, 我載你去, 之後又要來接你. 不如停個車, 我也付錢一起學一下, 卻被斷然拒絕. 去年人機大戰開始關心圍棋, 當時第一次聽到李世石這個名字, 就知道我有多菜. 人機大戰時是希望機可以贏, 應該不會有什麼人類尊嚴的心結. 以往陪著兒子去比賽, 在場邊無所事事一天, 今年夏天索幸自己也報名. 某次僥倖升段, 但絕對是全台最水的段位棋士, 問題只在能不能偷加個 "之一" 跟板友們程度差太多, 但還是略懂一點點, 不是什麼都不知道. 數學統計出身, 也做一點 learning. 因為數學的訓練, 讓我對很多事很小心, 很在意. (雖然在這板是被認為沒邏輯) 一個訊息有沒有被用到, 有沒有乍看沒用到, 但實際有用到, 這是我在意的. 如板主建議, 應該要先把定義講清楚, 再做討論. (這其實我很喜歡, 完全符合數學模式. 向來是被抱怨太死板, 講那什麼定義.) 什麼是 "人類圍棋知識" ? 其實論文題用的是更強的 human knowledge, 但我相信它只是把後面的 in GO 略掉, 應該是那意思. 有網友提到, 在 AI 界的定義, 棋譜不算人類圍棋知識. 但從 deepmind 自己也是 AlphaGo Zero 才稱沒用到人類知識, 他們應該也是把棋譜當做是人類圍棋知識. 對我來說, 除了規則外, 人類了解規則後, 對這規則所演生的想法, 成品, 表現, 都歸類為人類圍棋知識. 棋譜沒有直接告訴你棋理, 但它是棋理的展現. 從棋譜可以看到人類怎麼下, 可以歸納人類怎麼想. 用了棋譜的資訊, 說是沒用到人類圍棋知識, 或許對 AI 界的術語是那樣, 但我相信對於大部份白話的用語, 不是這樣的. 我若打了一堆本因坊秀策的棋譜, 我能說我沒用到本因坊秀策的知識? 以下討論, 就局限在我個人的定義, 不認同的, 也沒有必要繼續看下去. 如 AlphaGo Zero, 一個方法, 程式, AI 等, 它通常有一個架構, 模型, 或是流程. 而再細看, 其間有很多要被微調的參數, 才能讓這方法有優異的表現. 現在有幾個讓人關心的問題, 參數的估計有沒有用到人類圍棋知識? 模型架構的 選取有沒有用到人類圍棋知識? 一個沒有爭議的是, AlphaGo Zero 在參數優化估計上, 它沒有用到人類圍棋知識. 因此, 如果說法是, 在 AlphaGo Zero 的架構被決定後, 接下來它不需要人類圍棋 知識就可以變如此強, 這就也完全沒有爭議. 但它下的標題是: Mastering the game of Go without human knowledge 我不知道大家怎麼解讀這個句子. 我個人是認為 (可能您就不這樣認為) 不懂 AI 不懂圍棋的大眾, 會以為有個 AI, 在只知道規則下, 不需要藉助任何人類圍棋知識, 就能精通圍棋. 若是上述的陳論, 那我就無法同意了. 優化的過程, 除了參數的優化, 模型的選擇 也是重要的步驟. 參數的優化沒用到人類圍棋知識, 沒有爭議. 但模型選擇呢? 有人說, 那只是工程上的問題. 這我是完全無法認同的. 模型的選取, 直接影響整 個方法的表現, 通常不只是快或慢而已. 解很可能不一樣的. 至於我這篇一開始引的. 是的, ResNet 當紅, 拿來試試是自然的. 問題是怎麼試? 不用試了, 就是它, 直接開始自戰, 是嗎? 我想有經驗的人不會這樣做. Deepmind 也沒這樣做, 它還是先測試了學人類棋譜的 master 板本, 才再去試自戰的. 引個 https://tinyurl.com/y85ukxhn 文末的話: "The clever insights making Zero better was due to humans, not any piece of software suggesting that this approach would be good. I would start to get worried when that happens." 我想說的是, 在這新聞報導出來, 很多人會被誤導 AI 可以僅憑規則, 無師自通. 但它其實沒有被證實 (下一段補充) 那麼厲害. 它仍然是需要人類圍棋知識幫它 打好架構, 引導它往哪方向走. 對我來說, AlphaGo Zero 自戰學習, 這所謂的 學習, 其實只是更廣義的計算. 電腦計算比人類強, 這大家已經沒疑問. 而現在 的學習, 其實只是 "隨機計算", 這個電腦更該比人強. 但電腦程式的角色其實廣 義上仍然是幫人類算人類無法自己算的地方, 它並沒有自己學習. (關於上一段說要補充的. 或許 AI 真有這個能力, 但是, deepmind 似乎不是走 這樣的流程) 另外本文一開始引的也提到, 這不是圍棋專用的, 所以不算是圍棋知識. 我同事 目前在做, 當有 incomplete or delayed 訊息的遊戲, ResNet 是否也能做得好? 另外像是加入隨機, AI 無法得知最後成敗是因運氣還是功力, 那是否會讓它不易 學習? 或許有人可以歸納出圍棋是屬於怎樣的遊戲, 而這樣的遊戲, 用 ResNet + MCTS 都可以做得好. 但這是根據規則, 了解這個遊戲的特性, 這難道不也是一種 人類的圍棋知識? 是 AI 自己能懂的嗎? 有人把這篇看完了嗎? 我非常佩服你. 我覺得我若是讀的人, 可能也看不完. 我想我的想法都陳述了, 這是最後一篇, 相關話題不會再發文污染這個板. 若有興趣繼續討論的人, 歡迎私信討論. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.74.113 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1510341206.A.C6C.html

11/11 07:12, 6年前 , 1F
id真眼熟,好像以前在LGS見過耶
11/11 07:12, 1F

11/11 07:12, 6年前 , 2F
啊 看錯了
11/11 07:12, 2F

11/11 07:18, 6年前 , 3F
其實大家都解釋的很清楚了 是你自己鑽牛角尖 定義又跟別人
11/11 07:18, 3F

11/11 07:18, 6年前 , 4F
不同 甚至快接近無限上綱 了解這遊戲的特性後然後做些對工
11/11 07:18, 4F

11/11 07:18, 6年前 , 5F
程上比較方便的事 跟大家在這裡所謂的是否用到人類知識 根
11/11 07:18, 5F

11/11 07:18, 6年前 , 6F
本是兩碼子的事...
11/11 07:18, 6F

11/11 07:38, 6年前 , 7F
人家nature都accept了 你還要自己認為?
11/11 07:38, 7F

11/11 07:39, 6年前 , 8F
還是說要電腦自動產生程式碼才是無人為? XDD
11/11 07:39, 8F

11/11 08:24, 6年前 , 9F
如果要說nature accept這件事 其實跟他提的問題無關 不要因
11/11 08:24, 9F

11/11 08:24, 6年前 , 10F
為nature接受這篇論文就說別人自以為是比較好的...
11/11 08:24, 10F

11/11 08:27, 6年前 , 11F
這個問題其實當場有另一位講者有質疑黃博士(也是另一位AI
11/11 08:27, 11F

11/11 08:28, 6年前 , 12F
的高手) 但黃博士的看法是可以接受的 他認為這個過程中所
11/11 08:28, 12F

11/11 08:28, 6年前 , 13F
取得結果的過程有圍棋的影子 但是實際上採用在Zero的方式已
11/11 08:28, 13F

11/11 08:28, 6年前 , 14F
經完全沒有 可以搬到別的遊戲上直接使用...
11/11 08:28, 14F

11/11 08:29, 6年前 , 15F
另外,AGZ其實真沒一開始跟Master對戰學會 在演講中黃博士有
11/11 08:29, 15F

11/11 08:30, 6年前 , 16F
說他們採用resnet在AGZ跟Master是完全不一樣的參數 而且投
11/11 08:30, 16F

11/11 08:31, 6年前 , 17F
入的資源也不是一樣的 因為他們一開始就不認為Zero可以有那
11/11 08:31, 17F

11/11 08:31, 6年前 , 18F
麼快「學會」下棋 加上要發nature 不能公開, 所以跟柯潔對
11/11 08:31, 18F

11/11 08:32, 6年前 , 19F
戰還是發表的這篇 分成兩個團隊各自進行 另外原Po你說的問
11/11 08:32, 19F

11/11 08:33, 6年前 , 20F
題中 用用看不用試這件事 其實很可能就是真的 因為這幾年搞
11/11 08:33, 20F

11/11 08:34, 6年前 , 21F
理論的人 普遍認為搞工程的人對於這些practice背後理論證明
11/11 08:34, 21F

11/11 08:35, 6年前 , 22F
底子不足...XD
11/11 08:35, 22F

11/11 09:12, 6年前 , 23F
昨天有說Deepmind團隊當初做Zero,就是請黃博士把
11/11 09:12, 23F

11/11 09:12, 6年前 , 24F
所有Zero有用到人類知識的部分的code一行一行刪除
11/11 09:12, 24F

11/11 09:13, 6年前 , 25F
剩下給另外一個團隊搞,所以就看你相不相信黃博士(?
11/11 09:13, 25F
我相信黃博士, 而從他這段話, 更讓我覺得 AlphaGo Zero 是承繼 AlphaGo master 的主要架構, 只是把用棋譜訓練參數的部份拿掉.

11/11 10:31, 6年前 , 26F
所以AGZ的程式主要不是Aja負責的,所以nature論文他才
11/11 10:31, 26F

11/11 10:31, 6年前 , 27F
會排到第五去了
11/11 10:31, 27F

11/11 11:00, 6年前 , 28F
請問那zero目前的程式是for遊戲還是已經for所有purpose?
11/11 11:00, 28F

11/11 11:06, 6年前 , 29F
For general complete information game.
11/11 11:06, 29F

11/11 11:34, 6年前 , 30F
所以我才會希望隨便延用到任何的棋局遊戲像象棋來證明..
11/11 11:34, 30F

11/11 11:58, 6年前 , 31F
那同樣還是工程決定 目前不存在通用的架構
11/11 11:58, 31F

11/11 11:59, 6年前 , 32F
所以下一步才會是即時戰略 因為根本上差很多
11/11 11:59, 32F

11/11 12:00, 6年前 , 33F
如果堅持要一魚n吃才算 那連人類也做不到
11/11 12:00, 33F

11/11 12:01, 6年前 , 34F
有人下棋和打麻將思考的方式會一樣嗎?
11/11 12:01, 34F

11/11 12:09, 6年前 , 35F
打麻將牽涉到記憶跟摸牌出現機率的問題,電腦優勢太多了
11/11 12:09, 35F

11/11 12:14, 6年前 , 36F
優勢太多但不是穩贏 因為有無法控制的因素
11/11 12:14, 36F

11/11 12:14, 6年前 , 37F
這是遊戲規則不同可能造成的影響
11/11 12:14, 37F

11/11 12:19, 6年前 , 38F
棋譜本來就算人類圍棋知識啊...誰說不算的?
11/11 12:19, 38F

11/11 12:20, 6年前 , 39F
棋譜廣義上是 但規則不是
11/11 12:20, 39F

11/11 12:20, 6年前 , 40F
人類按照規則測試挑選適當的架構 這屬於工程範圍
11/11 12:20, 40F

11/11 12:21, 6年前 , 41F
至於模型選擇,可以自己用不同模型對下,那個勝率高就
11/11 12:21, 41F

11/11 12:21, 6年前 , 42F
選哪個吧?為啥一定要用人類棋譜驗證?
11/11 12:21, 42F

11/11 12:29, 6年前 , 43F
看到最後面....嗯!遊戲創始者跟規則設定者,雖然擁有一開
11/11 12:29, 43F

11/11 12:30, 6年前 , 44F
始的所有遊戲的規則,但並不一定是玩得最好的,甚至有可能
11/11 12:30, 44F

11/11 12:30, 6年前 , 45F
在旁人看來不太會玩遊戲,因為他沒深入遊戲去練習技術。
11/11 12:30, 45F

11/11 13:01, 6年前 , 46F
棋譜當然是人類圍棋知識啊
11/11 13:01, 46F

11/11 17:15, 6年前 , 47F
原po要將圍棋知識定義的如此廣我沒意見,但試想一個情況
11/11 17:15, 47F

11/11 17:16, 6年前 , 48F
如果一個記憶力很好的小朋友只是背了很多棋譜,沒有任何
11/11 17:16, 48F

11/11 17:18, 6年前 , 49F
定石、死活、厚薄的觀念,你會認為他有很豐富的圍棋知識
11/11 17:18, 49F

11/11 17:21, 6年前 , 50F
還是只是有驚人的記憶力? 更何況AlphaGO初版選擇輸入棋譜
11/11 17:21, 50F

11/11 17:22, 6年前 , 51F
時並沒有像ZEN一樣特別挑高手棋譜輸入,受人類圍棋觀念
11/11 17:22, 51F

11/11 17:23, 6年前 , 52F
更小
11/11 17:23, 52F
※ 編輯: tlchen (140.109.74.113), 11/11/2017 18:41:02

11/11 21:00, 6年前 , 53F
你沒有規則,就會產生AI沒氣卻不提子的狀況
11/11 21:00, 53F

11/11 21:00, 6年前 , 54F
所以規則是必要的
11/11 21:00, 54F

11/12 00:26, 6年前 , 55F
沒規則怎知道你在玩五子棋黑白棋還是圍棋
11/12 00:26, 55F

11/12 08:21, 6年前 , 56F
啊就Complete information game了還在麻將
11/12 08:21, 56F

11/13 19:11, 6年前 , 57F
沒規則還想教孩子啊XD真X孩
11/13 19:11, 57F
文章代碼(AID): #1Q1VfMni (GO)
討論串 (同標題文章)
文章代碼(AID): #1Q1VfMni (GO)