[討論] 阿發狗要繁殖小baby了?消失

看板GO作者時間8年前 (2016/03/12 16:38), 8年前編輯推噓16(16023)
留言39則, 14人參與, 最新討論串1/1
跟樊麾下的阿發狗是吃KGS的棋譜長大的 後來跟小李下的時候,大概是吃了職棋的正式對局譜,又變得更猛 前兩階段可以說是以人的心血餵養長大的,還有點血脈相承的親切感 但剛剛聽柯潔那台的棋評提到 接下來會把人的影子都清洗淡化, 也就是純粹的用阿發狗自己對局的棋譜來重學下棋 這種完完全全丟掉初始資料的學習方式個人是第一次聽聞 (相較於後續只是接著 fine-tuning 的作法) 有夠變態! 不知道有沒有人可以找到資料來源? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.82.190.215 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457771882.A.B29.html

03/12 16:40, , 1F
他自己的棋譜已經是前無古人的境界了 還吃別人的幹嘛?
03/12 16:40, 1F

03/12 16:42, , 2F
有新聞說AI會自己對下,所以成長的速度比我們想像還要更快
03/12 16:42, 2F

03/12 16:43, , 3F
阿就散功的概念阿
03/12 16:43, 3F

03/12 16:44, , 4F
今天的賽前訪問 deepmind 成員自己說的
03/12 16:44, 4F

03/12 16:45, , 5F
有提早半小時看官方直播的人應該都會聽到
03/12 16:45, 5F
感謝提供來源 另外,這個 D. Silver 有提到另一個驚人內幕,第二局的五路肩冲在 policy network 的機率只有萬分之一,太狂了!哪個人類有辦法去考慮機率只有萬分之一的分支

03/12 16:45, , 6F
我就想不通為什麼要用原始的SL策略網路和rollout policy
03/12 16:45, 6F

03/12 16:46, , 7F
學棋的話 還是用高永夏的棋譜最好了 哈哈哈哈
03/12 16:46, 7F

03/12 16:46, , 8F
因為阿發狗的棋力目前已經遠高於人類,這代表官方認為
03/12 16:46, 8F

03/12 16:46, , 9F
而不是建立好RL之後再重新建立一次SL。
03/12 16:46, 9F

03/12 16:46, , 10F
一開始的seed用阿發狗的棋譜遠比用人類棋譜來得雜訊更少
03/12 16:46, 10F

03/12 16:47, , 11F
棋力往上升的天花板也會更高(相對現在來說)。
03/12 16:47, 11F

03/12 16:47, , 12F
提問XD,那雜訊是希望"不多不少"嗎?
03/12 16:47, 12F

03/12 16:48, , 13F
(希望我沒有誤解paper...)
03/12 16:48, 13F
個人認為,原來SL的雜訊來源之一,可能類似這個例子: 兩個九段對弈,在第80手,A明顯優勢,可是收官時A打了個大勺,B贏了 於是,你拿 (80手的盤面,B勝) 這樣一筆資料來給阿發狗學習判斷勝率,可能 帶來負面的影響。 因此,純阿發狗的棋譜若不打勺,就可以避開此類干擾學習的“雜訊”

03/12 16:49, , 14F
他是亂馬嘛?還無差別格鬥流哩
03/12 16:49, 14F

03/12 16:53, , 15F
散功啦
03/12 16:53, 15F

03/12 17:11, , 16F
可是paper裡好像只有用人類棋譜來建立SL策略網路,儘管
03/12 17:11, 16F

03/12 17:12, , 17F
它其實可以重新用訓練好的AlphaGo重建。
03/12 17:12, 17F

03/12 17:16, , 18F
當然這也可能是因為寫paper時AlphaGo還不夠強啦,不過他
03/12 17:16, 18F

03/12 17:17, , 19F
們的paper好像是說希望有某種被人類篩選過的雜訊。
03/12 17:17, 19F

03/12 17:18, , 20F
It is worth noting that the SL policy network per-
03/12 17:18, 20F

03/12 17:18, , 21F
formed better in AlphaGo than the stronger RL policy
03/12 17:18, 21F

03/12 17:18, , 22F
network, presumably because humans select a diverse
03/12 17:18, 22F

03/12 17:18, , 23F
beam of promising moves, whereas RL optimizes for
03/12 17:18, 23F

03/12 17:19, , 24F
the single best move.
03/12 17:19, 24F
我上面的例子是對value network而言,你這段是policy network,在做了RL後,對於 下一手的選點比較集中幾個點,而不做RL之前選點是比較廣泛,跟mcts搭配起來有微妙 差異,好壞就要透過實證來下結論。

03/12 17:20, , 25F
今天的賽前訪問我聽的感覺像是在闡述人工智慧的前景和
03/12 17:20, 25F

03/12 17:20, , 26F
研發方向,不太記得是不是有特別指圍棋@@
03/12 17:20, 26F

03/12 17:34, , 27F
嗯對我想錯了其實不是同一件事XD,至少paper也沒解釋為
03/12 17:34, 27F

03/12 17:35, , 28F
像無名散功重練 更上一層啊
03/12 17:35, 28F

03/12 17:35, , 29F
什麼不用『AlphaGo棋譜建立的SL來重新建立RL value』
03/12 17:35, 29F

03/12 17:37, , 30F
至於MCTS本身不用RL policy就像你說是另一件事。
03/12 17:37, 30F

03/12 17:37, , 31F
那部分paper的說明倒是比較好想像XD
03/12 17:37, 31F

03/12 18:01, , 32F
有喔 會有學習極限的事
03/12 18:01, 32F

03/12 18:29, , 33F
我也是覺得會有學習極限的事 我現在還是傾向於相信圍棋
03/12 18:29, 33F

03/12 18:30, , 34F
上帝讓兩子 而阿發夠可能就很像集合世上各大高手的優點
03/12 18:30, 34F

03/12 18:30, , 35F
或許中及型態可以讓到柯潔這種當世第一讓到分先
03/12 18:30, 35F

03/12 18:31, , 36F
終極
03/12 18:31, 36F
※ 編輯: aaaba (111.82.190.216), 03/12/2016 20:00:11

03/12 20:19, , 37F
感覺像洗血統,要洗到精純
03/12 20:19, 37F

03/12 21:35, , 38F
反過來說,說不訂雜訊都阿法狗自己洗的,人類:去洗雜訊!
03/12 21:35, 38F

03/12 21:35, , 39F
成就:[學會洗雜訊]
03/12 21:35, 39F
文章代碼(AID): #1MuzLgif (GO)