Re: [閒聊] 有關"深度學習"的文章

看板GO作者chz (稻草人騎士)時間8年前 (2016/03/16 13:28)推噓7(7推 0噓 15→)

留言22則, 6人參與討論串4/4 (看更多)

※ 引述《mathbug (天堂的定義)》之銘言： : 個人覺得有兩個方向可能可以試試讓AlphaGo更接近完美 : A. 訓練棋譜先分類如我之前的文章所說明 #1MvdF35h : (避開勝負手/無理手翻盤的棋譜訓練時只採用完勝的棋譜) 在Alpha Go已經訓練完棋譜部份都在跑自對戰的現在這樣相當於要重新建構整個類神經網路。個人覺得比較接近其他人/團體要師法Alpha Go可以嘗試的方法否則要DeepMind重建整個類神經網路然後重新訓練的成本太高了。 (只有最初Supervised Learning有用到棋譜，後面Reinforcement Learning都是自對戰) : B. 將評價網路中的勝率最高著點改為圍地目數最多之著點 : 當然可以兩種都記錄下來 : 根據以上的第2點，比方說，模擬10000盤，某a點圍地最多，它的勝率也應該是 : 勝率最高的幾個點之一，這絕對是正相關的兩種參數 : (若不是，系統的不穩定性就出來了(如第四盤的鬼手出現)) 你可能誤會value network的使用方式了？ value network回傳的是不是一個著手。 value network回傳的是一個值，是對於落子後盤面的勝率估計也就是輸入是一個盤面，輸出是估計勝率然後在MCTS中，一個葉節點的值是 (1-\lambda) 模擬值 + \lambda 估計值因此value network是用於修正MCTS中random game的精準度的。相當於估計直說這手的勝率是70%，模擬的部份幫忙看是比70%高或低多少。所以如果一開始value network的估計值差很遠，對同一個點做再多模擬也救不回來，因為他是一個線性公式，與模擬次數無關。估計值總是會提供一定的影響力。至於把MCTS中的分數全部改為目數/點數呢？這個基本上在MCTS蓬勃發展時代(2006-2012)大家就試過了結論是用目數取代勝率MCTS的收斂比較慢。因為獲勝目數的平均值意義太低， 90盤輸1目10盤贏10目，和45盤輸1目55盤贏1目平均都是+0.1，但是正常都會懷疑+10的那10盤棋究竟是絕妙好棋，還是對手應錯，別忘了，這些都是random game的結果。另外，陳鐘誠教授對AlphaGo的理解是有問題的，建議原Po去讀Nature的原始論文比較不會被誤導。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.23.210 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1458106118.A.052.html ※ 編輯: chz (140.109.23.210), 03/16/2016 13:30:38

推

aaaba

03/16 13:33, , 1^F

03/16 13:33, 1^F

→

bbbtri

03/16 13:34, , 2^F

03/16 13:34, 2^F

→

bbbtri

03/16 13:35, , 3^F

03/16 13:35, 3^F