Re: [心得] Alphago的弱點

看板GO作者yamiyodare (shantotto)時間8年前 (2016/03/13 22:21)推噓8(9推 1噓 25→)

留言35則, 14人參與討論串3/3 (看更多)

※ 引述《turing (涂妮)》之銘言： : 再看今天第78手後，發生什麼事情？ : 明顯這個「神之一手」不在其策略網路之前估計的棋步中。 : 所以，之前所有值網路所估計的勝率全部報廢。 : AlphaGo必需全部重新計算勝率，而需要約五步的時間(到第79~87步) : 值網路才回復正常。我的看法是 Policy Network 裡面有給過神之一手 (白 78) AlphaGo 也算過相關變化, 但是算的不夠深, 或者說 Value Network 太晚估對. 假設 AlphaGo 搜尋深度固定 8 層 (簡化說明, 實際上不是如此) AlphaGo 79 手: 我算過 79~86 手的變化了, 86 手的 value network 有 70% 我可以安心下 79. AlphaGo 81 手: 81 手 value network 報 70% 讓我算一下 81~88 手為止的變化 WTF! 87 手的 value network 掉到 40% ? 可是 81 手的勝率 40% (被 87 手降低) 還是最高, 只好繼續下 81. AlphaGo 83 手: 83 手 value network 報 70% 83 手的勝率 40% 還是最高, 只好繼續下 83. AlphaGo 83 手: 85 手 value network 報 70% 85 手的勝率 40% 還是最高, 只好繼續下 85. AlphaGo 87 手: 87 手的 value network 報 40% 我第 81 手時知道我錯了, 可是 81 手前下錯已經走上單行道. 想避開神之一手 AlphaGo 要能搜尋的更深提早知道 87 手的盤面很劣 (但要花很多運算時間) 或是 Value Network 早一點報對, 比如說第 80 手的盤面就知道很劣. 拉長搜尋時間不太可行 (今天都快用光時間了) 把 Value Network 訓練的更準應該是 AlphaGo 主要的目標. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.113.64 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457878894.A.F94.html

→

ilw4e

03/13 22:23, , 1^F

03/13 22:23, 1^F

→

SuperUp

03/13 22:24, , 2^F

03/13 22:24, 2^F

※ 編輯: yamiyodare (36.231.113.64), 03/13/2016 22:26:55

→

yamiyodare

03/13 22:27, , 3^F