Re: [閒聊] 有關"深度學習"的文章

看板GO作者 (稻草人騎士)時間8年前 (2016/03/16 13:28), 8年前編輯推噓7(7015)
留言22則, 6人參與, 最新討論串4/4 (看更多)
※ 引述《mathbug (天堂的定義)》之銘言: : 個人覺得有兩個方向可能可以試試 讓AlphaGo更接近完美 : A. 訓練棋譜先分類 如我之前的文章所說明 #1MvdF35h : (避開勝負手/無理手翻盤的棋譜 訓練時只採用完勝的棋譜) 在Alpha Go已經訓練完棋譜部份都在跑自對戰的現在 這樣相當於要重新建構整個類神經網路。 個人覺得比較接近其他人/團體要師法Alpha Go可以嘗試的方法 否則要DeepMind重建整個類神經網路然後重新訓練的成本太高了。 (只有最初Supervised Learning有用到棋譜, 後面Reinforcement Learning都是自對戰) : B. 將評價網路中的勝率最高著點改為圍地目數最多之著點 : 當然可以兩種都記錄下來 : 根據以上的第2點,比方說,模擬10000盤,某a點圍地最多,它的勝率也應該是 : 勝率最高的幾個點之一,這絕對是正相關的兩種參數 : (若不是,系統的不穩定性就出來了(如第四盤的鬼手出現)) 你可能誤會value network的使用方式了? value network回傳的是不是一個著手。 value network回傳的是一個值,是對於落子後盤面的勝率估計 也就是輸入是一個盤面,輸出是估計勝率 然後在MCTS中,一個葉節點的值是 (1-\lambda) 模擬值 + \lambda 估計值 因此value network是用於修正MCTS中random game的精準度的。 相當於估計直說這手的勝率是70%, 模擬的部份幫忙看是比70%高或低多少。 所以如果一開始value network的估計值差很遠, 對同一個點做再多模擬也救不回來,因為他是一個線性公式,與模擬次數無關。 估計值總是會提供一定的影響力。 至於把MCTS中的分數全部改為目數/點數呢? 這個基本上在MCTS蓬勃發展時代(2006-2012)大家就試過了 結論是用目數取代勝率MCTS的收斂比較慢。 因為獲勝目數的平均值意義太低, 90盤輸1目10盤贏10目,和45盤輸1目55盤贏1目 平均都是+0.1,但是正常都會懷疑+10的那10盤棋 究竟是絕妙好棋,還是對手應錯,別忘了,這些都是random game的結果。 另外,陳鐘誠教授對AlphaGo的理解是有問題的, 建議原Po去讀Nature的原始論文比較不會被誤導。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.23.210 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1458106118.A.052.html ※ 編輯: chz (140.109.23.210), 03/16/2016 13:30:38

03/16 13:33, , 1F
大膽,math大是在美國讀過書,怎麼會不知道要看原始論文呢
03/16 13:33, 1F

03/16 13:34, , 2F
很好奇..輸入的只是一個盤面的一手的話(避免overfitting?)
03/16 13:34, 2F

03/16 13:35, , 3F
那總共要累積多少估計勝率的值 才足夠讓AG下一步棋 @ @?
03/16 13:35, 3F

03/16 13:52, , 4F
補充一點,改成目數的話,NN的supervised learning也不好做
03/16 13:52, 4F

03/16 13:54, , 5F
中押的棋局都要用某種方式補下完後數子才有數據可學
03/16 13:54, 5F

03/16 13:58, , 6F
例如,由現在的狗繼續下完。但總之ai的目標是贏棋,訓練的
03/16 13:58, 6F

03/16 13:58, , 7F
回2F,基本上後面都是靠MCTS往下展開來判斷的。
03/16 13:58, 7F

03/16 13:59, , 8F
時候目標卻不是贏棋,反映在勝率的數字應該不會有提升
03/16 13:59, 8F

03/16 14:00, , 9F
至於要有多少勝率才會下出下一手應該是機密了。
03/16 14:00, 9F

03/16 14:01, , 10F
謝謝1F補充,我只對於game的部份比較熟。
03/16 14:01, 10F

03/16 14:04, , 11F
秀哉:這步不錯(70%up) 徒子徒孫們去下下看有沒有問題
03/16 14:04, 11F

03/16 14:04, , 12F
門徒:沒問題的多
03/16 14:04, 12F

03/16 14:05, , 13F
秀哉:清源老弟, 你看我這招如何? 呵呵
03/16 14:05, 13F

03/16 14:08, , 14F
還好秀哉不會崩潰亂挖送吃
03/16 14:08, 14F

03/16 14:16, , 15F
那是因為她沒遇到神之一手 XD
03/16 14:16, 15F

03/16 15:06, , 16F
秀哉遇到神之一手,可以掛著再去問徒弟,alphaGO不行
03/16 15:06, 16F

03/16 15:14, , 17F
AG問啦 徒弟算錯她也沒辦法啊 XD
03/16 15:14, 17F

03/16 15:19, , 18F
你的90盤輸1目 vs 40盤輸10目的例子剛好可以對照勝率法
03/16 15:19, 18F

03/16 15:19, , 19F
顯示這個點/盤面的不穩定性
03/16 15:19, 19F

03/16 16:02, , 20F
所以,既然勝率比較穩定,用目數的意義不大阿。
03/16 16:02, 20F

03/16 17:56, , 21F
我的意思是 應該加一個穩定系數 這兩種差異性就是個觀察
03/16 17:56, 21F

03/16 17:58, , 22F
穩定度不好一定是盤面複雜(如第四盤鬼手)可多花一些資源
03/16 17:58, 22F
文章代碼(AID): #1MwEy61I (GO)
文章代碼(AID): #1MwEy61I (GO)