跟樊麾下的阿發狗是吃KGS的棋譜長大的
後來跟小李下的時候,大概是吃了職棋的正式對局譜,又變得更猛
前兩階段可以說是以人的心血餵養長大的,還有點血脈相承的親切感
但剛剛聽柯潔那台的棋評提到
接下來會把人的影子都清洗淡化,
也就是純粹的用阿發狗自己對局的棋譜來重學下棋
這種完完全全丟掉初始資料的學習方式個人是第一次聽聞
(相較於後續只是接著 fine-tuning 的作法)
有夠變態!
不知道有沒有人可以找到資料來源?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.82.190.215
※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457771882.A.B29.html
推
03/12 16:40, , 1F
03/12 16:40, 1F
推
03/12 16:42, , 2F
03/12 16:42, 2F
推
03/12 16:43, , 3F
03/12 16:43, 3F
推
03/12 16:44, , 4F
03/12 16:44, 4F
→
03/12 16:45, , 5F
03/12 16:45, 5F
感謝提供來源
另外,這個 D. Silver 有提到另一個驚人內幕,第二局的五路肩冲在 policy
network 的機率只有萬分之一,太狂了!哪個人類有辦法去考慮機率只有萬分之一的分支
推
03/12 16:45, , 6F
03/12 16:45, 6F
推
03/12 16:46, , 7F
03/12 16:46, 7F
推
03/12 16:46, , 8F
03/12 16:46, 8F
→
03/12 16:46, , 9F
03/12 16:46, 9F
→
03/12 16:46, , 10F
03/12 16:46, 10F
→
03/12 16:47, , 11F
03/12 16:47, 11F
→
03/12 16:47, , 12F
03/12 16:47, 12F
→
03/12 16:48, , 13F
03/12 16:48, 13F
個人認為,原來SL的雜訊來源之一,可能類似這個例子:
兩個九段對弈,在第80手,A明顯優勢,可是收官時A打了個大勺,B贏了
於是,你拿 (80手的盤面,B勝) 這樣一筆資料來給阿發狗學習判斷勝率,可能
帶來負面的影響。
因此,純阿發狗的棋譜若不打勺,就可以避開此類干擾學習的“雜訊”
推
03/12 16:49, , 14F
03/12 16:49, 14F
推
03/12 16:53, , 15F
03/12 16:53, 15F
推
03/12 17:11, , 16F
03/12 17:11, 16F
→
03/12 17:12, , 17F
03/12 17:12, 17F
推
03/12 17:16, , 18F
03/12 17:16, 18F
→
03/12 17:17, , 19F
03/12 17:17, 19F
→
03/12 17:18, , 20F
03/12 17:18, 20F
→
03/12 17:18, , 21F
03/12 17:18, 21F
→
03/12 17:18, , 22F
03/12 17:18, 22F
→
03/12 17:18, , 23F
03/12 17:18, 23F
→
03/12 17:19, , 24F
03/12 17:19, 24F
我上面的例子是對value network而言,你這段是policy network,在做了RL後,對於
下一手的選點比較集中幾個點,而不做RL之前選點是比較廣泛,跟mcts搭配起來有微妙
差異,好壞就要透過實證來下結論。
→
03/12 17:20, , 25F
03/12 17:20, 25F
→
03/12 17:20, , 26F
03/12 17:20, 26F
推
03/12 17:34, , 27F
03/12 17:34, 27F
→
03/12 17:35, , 28F
03/12 17:35, 28F
→
03/12 17:35, , 29F
03/12 17:35, 29F
→
03/12 17:37, , 30F
03/12 17:37, 30F
→
03/12 17:37, , 31F
03/12 17:37, 31F
推
03/12 18:01, , 32F
03/12 18:01, 32F
推
03/12 18:29, , 33F
03/12 18:29, 33F
→
03/12 18:30, , 34F
03/12 18:30, 34F
→
03/12 18:30, , 35F
03/12 18:30, 35F
→
03/12 18:31, , 36F
03/12 18:31, 36F
※ 編輯: aaaba (111.82.190.216), 03/12/2016 20:00:11
推
03/12 20:19, , 37F
03/12 20:19, 37F
推
03/12 21:35, , 38F
03/12 21:35, 38F
→
03/12 21:35, , 39F
03/12 21:35, 39F