Re: [心得] Alphago的弱點

看板GO作者 (shantotto)時間8年前 (2016/03/13 22:21), 8年前編輯推噓8(9125)
留言35則, 14人參與, 最新討論串3/3 (看更多)
※ 引述《turing (涂妮)》之銘言: : 再看今天第78手後,發生什麼事情? : 明顯這個「神之一手」不在其策略網路之前估計的棋步中。 : 所以,之前所有值網路所估計的勝率全部報廢。 : AlphaGo必需全部重新計算勝率,而需要約五步的時間(到第79~87步) : 值網路才回復正常。 我的看法是 Policy Network 裡面有給過神之一手 (白 78) AlphaGo 也算過相關變化, 但是算的不夠深, 或者說 Value Network 太晚估對. 假設 AlphaGo 搜尋深度固定 8 層 (簡化說明, 實際上不是如此) AlphaGo 79 手: 我算過 79~86 手的變化了, 86 手的 value network 有 70% 我可以安心下 79. AlphaGo 81 手: 81 手 value network 報 70% 讓我算一下 81~88 手為止的變化 WTF! 87 手的 value network 掉到 40% ? 可是 81 手的勝率 40% (被 87 手降低) 還是最高, 只好繼續下 81. AlphaGo 83 手: 83 手 value network 報 70% 83 手的勝率 40% 還是最高, 只好繼續下 83. AlphaGo 83 手: 85 手 value network 報 70% 85 手的勝率 40% 還是最高, 只好繼續下 85. AlphaGo 87 手: 87 手的 value network 報 40% 我第 81 手時知道我錯了, 可是 81 手前下錯已經走上單行道. 想避開神之一手 AlphaGo 要能搜尋的更深提早知道 87 手的盤面很劣 (但要花很多運算時間) 或是 Value Network 早一點報對, 比如說第 80 手的盤面就知道很劣. 拉長搜尋時間不太可行 (今天都快用光時間了) 把 Value Network 訓練的更準應該是 AlphaGo 主要的目標. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.113.64 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457878894.A.F94.html

03/13 22:23, , 1F
可是照理說minimax不是要排除嗎?:D
03/13 22:23, 1F

03/13 22:24, , 2F
自爆的那二手也是勝率最高嗎?
03/13 22:24, 2F
※ 編輯: yamiyodare (36.231.113.64), 03/13/2016 22:26:55

03/13 22:27, , 3F
算的不夠深所以沒排除
03/13 22:27, 3F

03/13 22:28, , 4F
如果到了2040年左右?能再多搜個幾層的話 棋士還能對抗嗎
03/13 22:28, 4F

03/13 22:28, , 5F
它會下它認為勝率最高的, 只是人類不一定同意.
03/13 22:28, 5F

03/13 22:28, , 6F
也有可能是mcts裡的rollout policy太爛,分支就被剪掉了
03/13 22:28, 6F

03/13 22:28, , 7F
實際上計算是 MCTS, 評估網路認為沒那麼重要的 就不會
03/13 22:28, 7F

03/13 22:28, , 8F
算那麼深(時間夠或計算資源多還是可能會算到 但不保證)
03/13 22:28, 8F

03/13 22:29, , 9F
可是是因為AG下了69才會有78的發生
03/13 22:29, 9F

03/13 22:30, , 10F
自爆的時候可能決策系統給出的勝率都很低了
03/13 22:30, 10F

03/13 22:30, , 11F
minmax 是看他深度決定的 有可能 min 在更深的地方
03/13 22:30, 11F

03/13 22:31, , 12F
應該反過來講 它在計算 69 的時候是看不到 78 的
03/13 22:31, 12F

03/13 22:31, , 13F
所以,實際上AG在評估69要下哪邊時就做錯決定了...
03/13 22:31, 13F

03/13 22:31, , 14F
等到他真的遇到了 就 GG 了
03/13 22:31, 14F

03/13 22:31, , 15F
有量子電腦就能試試窮舉了呀,但還久
03/13 22:31, 15F

03/13 22:31, , 16F
除非評估網路認為 78 這位置夠重要, 才有可能算到
03/13 22:31, 16F

03/13 22:33, , 17F
電腦對下不太容易發現這種問題 因為雙方評估差不到哪去
03/13 22:33, 17F

03/13 22:37, , 18F
這個局部的洞估計兩邊都很難在夠早的地方看到 就是運氣
03/13 22:37, 18F

03/13 22:45, , 19F
還在minmax, 通通回去看完論文再來推文
03/13 22:45, 19F

03/13 22:47, , 20F
不是運氣 他扳右邊二子頭其實非必要
03/13 22:47, 20F

03/14 03:21, , 21F
不懂。如果他早知道正常下87手勝率很低,79手就不會覺得
03/14 03:21, 21F

03/14 03:22, , 22F
勝率高吧? 我不懂MCTS,但我以為這裡收斂到minimax很快
03/14 03:22, 22F

03/14 05:18, , 23F
2040有量子電腦出現的話應該就窮舉了
03/14 05:18, 23F
※ 編輯: yamiyodare (36.231.113.64), 03/14/2016 07:53:01

03/14 07:53, , 24F
感謝原po XD 想來我本來看錯了,不過這跟Demis說法不符?
03/14 07:53, 24F

03/14 07:53, , 25F
修改一下比較清楚
03/14 07:53, 25F

03/14 07:54, , 26F
就是Demis說AlphaGo的回報勝率到87才降
03/14 07:54, 26F

03/14 07:55, , 27F
Demis 可能透過 AlphaGo 知道 79 手下別處沒那麼差
03/14 07:55, 27F

03/14 07:55, , 28F
value network 的確是到 87 手才降的
03/14 07:55, 28F

03/14 07:57, , 29F
搜尋樹回報的勝率是後續幾手 value network 決定
03/14 07:57, 29F

03/14 07:58, , 30F
Demis 指的是 value network 到 87 手才知道劣太晚了
03/14 07:58, 30F

03/14 07:58, , 31F
我不會這樣解讀Demis的說法XD 不過說不定是你說的這樣
03/14 07:58, 31F

03/14 08:02, , 32F
等等,你說的真是太有道理了!!! m(_ _)m感謝
03/14 08:02, 32F

03/14 08:38, , 33F
推這篇XD,我覺得對沒學過演算法的人這篇最好,
03/14 08:38, 33F

03/14 08:39, , 34F
你沒有討論rollout policy,不過Demis意思應該就是說
03/14 08:39, 34F

03/14 08:39, , 35F
value network才是問題所在,這樣好像很難分析...
03/14 08:39, 35F
文章代碼(AID): #1MvNTk-K (GO)
討論串 (同標題文章)
文章代碼(AID): #1MvNTk-K (GO)