Re: [爆卦] AlphaGo發現自己79步失誤

看板GO作者 (shantotto)時間8年前 (2016/03/13 19:53), 編輯推噓14(14053)
留言67則, 20人參與, 最新討論串6/6 (看更多)
※ 引述《tlchen (台灣加油)》之銘言: : 從這兩個 twitter 來看, AI 在 79 時仍認為自己有 79% 的勝率, : 直到第 87 手時,才發現勝率驟降。四日棋迷猜測如下: : AI 估計勝率是經由之後的模擬,白 78 手被認為神手,但或許是之後 : 的巧妙變化是不明顯的,所以 AI 無法知道這手有這麼大的功用,或 : 是說,無法準確的評估此時的盤面。 value network 是給一個盤面 (361 個輸入黑/白/空) 直接告訴你勝率. 基本上盤面幾乎不會重複, 所以每一個盤面都是 AlphaGo 或人沒看過的. 如果是人, 中盤之後可能會開始點空估計目數. 而估錯最可能發生在以為的活棋其實是死棋, 比如說進行中的攻殺. value network 是餵給它千萬盤面, 然後跟它說最後是贏是輸訓練出來. 遇到新的盤面, value network 根據之前的經驗 (神經連結權重) 吐出結果. 如果單純餵 "361 個輸入黑/白/空" 進去訓練一定完蛋, 因為這樣變成單純的形態學, 長得像某個樣子就以為會輸或會贏. 圍棋很多時候差一路就差很多 (好手的旁邊常是惡手) 所以還會加入 "剩下的氣數" "提子數" "手順" "征子" 等等資訊進去訓練. 如果人類認為 79 手的盤勢黑棋大劣了, 那麼 79 手的盤面 value network 就應該吐勝率陡降的值出來, 而不是等到 87 手的盤面才反應. 如果 AlphaGo 知道 79 手 (甚至更早) 的盤面劣勢, 前幾手就會避免走上這個局面. 但到 87 手才知道劣勢, 這時候已經走上不歸路. AlphaGo 團隊回去一定是在研究這種盤面為什麼會估錯, 以及要如何調整訓練方式. : 這提供了要對付目前這版 AlphaGo 的方法,你最好下一些方法是:接 : 下來對你的最佳解跟次佳解,結果會差很多,這樣 AI 用模擬的,就有 : 機會誤判。如果你下的棋,接下來的應對,結果都差不了太多,那 AI : 自然估得準。讓它估不準,才會在接下來還沒估準前,繼續出錯。 這真的要拼 AlphaGo 形勢判斷錯誤. 但是我們不知道甚麼樣的盤面可以讓 AlphaGo 形勢判斷錯誤, 劣勢誤以為優勢. 也許是大規模攻殺, 然後又走進特定的棋型 (像小李今天那一手) 讓它誤判. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.113.64 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457869987.A.DFB.html

03/13 19:55, , 1F
我也這樣認為 這麼晚才估出來 已經有很大的問題
03/13 19:55, 1F

03/13 19:57, , 2F
後面alphago還演變成一堆自殺下法
03/13 19:57, 2F

03/13 19:58, , 3F
期待Google公開AlphaGo秀斗的關鍵原因。
03/13 19:58, 3F

03/13 19:58, , 4F
google乾脆大方公開程式碼 讓全世界寫程式的去bug不是
03/13 19:58, 4F

03/13 19:59, , 5F
更快???
03/13 19:59, 5F

03/13 19:59, , 6F
這樣google還要混嗎
03/13 19:59, 6F

03/13 19:59, , 7F
所以79~87的自殺打法是他認為勝率7X%時下出來的?
03/13 19:59, 7F

03/13 19:59, , 8F
所以alphago應該只能預估是當下而不是後面局勢
03/13 19:59, 8F

03/13 20:00, , 9F
它會預估後面, 但若估錯得太早已經來不及救了.
03/13 20:00, 9F

03/13 20:03, , 10F
那應該說alphago目前還沒有大局觀
03/13 20:03, 10F

03/13 20:04, , 11F
它有大局觀 而且很強喔 只是跟人一樣不是完全正確
03/13 20:04, 11F

03/13 20:05, , 12F
我認為alphago自我鍛鍊幾百萬 幾千萬盤 應該多少會下
03/13 20:05, 12F

03/13 20:05, , 13F
不是Alphago只能估當下局勢,而是他並沒有完全算完(正是
03/13 20:05, 13F

03/13 20:05, , 14F
阿法狗就剛好沒算到那步 不是沒有大局觀
03/13 20:05, 14F

03/13 20:06, , 15F
出這種自殺 自爆的棋路 但google公司應該沒花時間去
03/13 20:06, 15F

03/13 20:06, , 16F
沒有大局觀還能屌打李喔? 怎麼可能
03/13 20:06, 16F

03/13 20:06, , 17F
因為現今電腦還沒辦法完全計算完所以才會只有Alphago能
03/13 20:06, 17F

03/13 20:06, , 18F
檢驗每一個棋盤結果
03/13 20:06, 18F

03/13 20:06, , 19F
那演算法就是有隨機性 就隨機的剛好沒算到關鍵的那步
03/13 20:06, 19F

03/13 20:06, , 20F
有能力打敗職業棋手),Alphago的類神經演算法是模擬人類
03/13 20:06, 20F

03/13 20:07, , 21F
它有算到... 但是劣勢誤以為優勢所以還是往那邊下
03/13 20:07, 21F

03/13 20:07, , 22F
還好 李世石再這五盤 幫google省了不少檢驗時間
03/13 20:07, 22F

03/13 20:08, , 23F
你怎麼能那麼確定他有算到?
03/13 20:08, 23F

03/13 20:08, , 24F
在有限的時間內去找出勝率最高的位置下,而且就像black
03/13 20:08, 24F

03/13 20:09, , 25F
提到的他還帶有隨機性,也就是說即使重新下一次今天的棋
03/13 20:09, 25F

03/13 20:09, , 26F
選擇不是看value network和MCTS的綜合結果嗎?沒只看其
03/13 20:09, 26F

03/13 20:09, , 27F
中一種吧
03/13 20:09, 27F

03/13 20:09, , 28F
Alphago下出來的結果理論上也有很大機會是不同的
03/13 20:09, 28F

03/13 20:10, , 29F
因為小李下了之後好幾手 AlphaGo 居然還以為自己優勢
03/13 20:10, 29F

03/13 20:10, , 30F
就是連續沒算到吧 至於為什麼沒算到就是要看了
03/13 20:10, 30F

03/13 20:10, , 31F
我是猜他重心花在計算自己下一步怎下 勝率高 沒花太
03/13 20:10, 31F

03/13 20:11, , 32F
不覺得AI這樣的"以為"其實跟人類有很類似的一面嗎
03/13 20:11, 32F

03/13 20:11, , 33F
看到底是演算法設計缺陷 隨機有問題 還是其他有的沒的
03/13 20:11, 33F

03/13 20:11, , 34F
多時間 去幫對方計算 對方下一步下那裡 勝率如何
03/13 20:11, 34F

03/13 20:12, , 35F
因為程式是人想 寫出來的阿 哈哈 當然會有人類缺陷
03/13 20:12, 35F

03/13 20:12, , 36F
我記得之前不是有一局就想說他可能大局觀不足,但李原本
03/13 20:12, 36F

03/13 20:12, , 37F
給一個盤面 要估出勝算本來就是超難題 有很大進步空間
03/13 20:12, 37F

03/13 20:12, , 38F
他論文有提到他會預測對方接下來怎麼下 別亂猜
03/13 20:12, 38F

03/13 20:13, , 39F
想攻的地方被AlphaGO先行穩固
03/13 20:13, 39F

03/13 20:16, , 40F
推這篇,解說清楚。
03/13 20:16, 40F

03/13 20:30, , 41F
所以合理懷疑87手是被插入執行
03/13 20:30, 41F

03/13 20:31, , 42F
有被動手腳之嫌
03/13 20:31, 42F

03/13 20:31, , 43F
這ai就是模擬人類腦神經的產物 他本來就很像人
03/13 20:31, 43F

03/13 20:32, , 44F
他跟人的差別是他不眠不休的鑽研圍棋 而且也只會下圍棋
03/13 20:32, 44F

03/13 20:33, , 45F
這種學習型ai甚至可以發展出自己的棋風 比如阿發狗的勝率流
03/13 20:33, 45F

03/13 20:34, , 46F
那是他吃玩棋譜之後覺得最好贏的下法
03/13 20:34, 46F

03/13 20:36, , 47F
比較可怕的是他很少犯錯 沒有情緒 你不能知到自己是否已經
03/13 20:36, 47F

03/13 20:36, , 48F
讓ai動搖
03/13 20:36, 48F

03/13 20:40, , 49F
小李復活我覺得沒話說 但是阿發狗的防禦明顯掉太多了
03/13 20:40, 49F

03/13 20:40, , 50F
這我認為有問題 不太可能黑51那邊明顯放給人殺的
03/13 20:40, 50F

03/13 20:42, , 51F
也許這就是穩穩的贏 vs 贏多一點以避免後面會出錯 間的取捨
03/13 20:42, 51F

03/13 20:55, , 52F
重金聘請的測試工程師還真的找到bug~
03/13 20:55, 52F

03/13 21:11, , 53F
以deepmind的原始概念來說 它的系統每做一個動作
03/13 21:11, 53F

03/13 21:12, , 54F
它就要被告知分數是增減或不變
03/13 21:12, 54F

03/13 21:13, , 55F
也就是一個遊戲是單純的分數升降 deepmind通過學習就必勝
03/13 21:13, 55F

03/13 21:13, , 56F
但圍棋難的是每下一手並沒有明確的分數升降
03/13 21:13, 56F

03/13 21:13, , 57F
所以它才要估勝率來當做一種分數
03/13 21:13, 57F

03/13 21:14, , 58F
所以要修的重點就是估算這部分 不然其他結構都是一樣的
03/13 21:14, 58F

03/13 21:14, , 59F
deepmind也可以拿來玩星海 只是同樣要給它一個算分系統
03/13 21:14, 59F

03/13 21:56, , 60F
演算法本來就有隨機性阿
03/13 21:56, 60F

03/13 22:15, , 61F
請問一下估計勝率這種東西有可能多報嗎?
03/13 22:15, 61F

03/13 22:16, , 62F
例如它估計49%~79%,連它自己都不敢肯定會收斂到49還是79
03/13 22:16, 62F

03/13 22:16, , 63F
然後它就先吐79%給人看這樣?
03/13 22:16, 63F

03/13 23:59, , 64F
勝率本來就是一個統合比例了,怎麼會是一個範圍XD
03/13 23:59, 64F

03/14 00:01, , 65F

03/14 00:04, , 66F
這幾個輔助 MCTS 的網路很複雜也很敏感 需要大量的調校
03/14 00:04, 66F

03/14 00:05, , 67F
"估計勝率"是計算的結果, 這盤棋的狀況顯然是出錯了
03/14 00:05, 67F
文章代碼(AID): #1MvLIZtx (GO)
討論串 (同標題文章)
文章代碼(AID): #1MvLIZtx (GO)