Re: [好文推薦] 這兩盤棋沒人會比李世石做得好

看板GO作者indium111 (原子核的奧秘)時間8年前 (2016/03/11 21:13)推噓6(6推 0噓 23→)

留言29則, 8人參與討論串3/8 (看更多)

※ 引述《nnlisalive (nnlisalive)》之銘言： : ※ 引述《raiderho (冷顏冷雨)》之銘言： : : 依本文說法，AlphaGo的臭棋 (人類認定) 有三種可能性，而且都已經發生了： : : 其一，在電腦判定的獲勝機率已經非常高時， : : 不同下法對機率的影響會鈍化，可能只是99.9%與99.91%的差別而已， : : 而算法設計可能會讓非最佳解更容易被隨機挑到。 : : 這種非最佳解，就是真正的臭棋 (邏輯上為嚴格劣勢策略)。 : : 然而，若以上敘述為真，當電腦下出明顯臭棋時，電腦應該已經大幅佔優了。 : : 相反的，情勢還在膠著時，下錯會讓獲勝機率大幅降低， : : 臭棋被挑中的機率近乎為零，這時，我們會看到非常緊繃的對局。 : : 這一點呼應「遇強則強，遇弱則弱」。 : : (最後一句不是指李和樊的差距，因為電腦棋力這幾個月增加不少)； : 我覺得要從程式碼方面下手了 : 首先就是阿發狗所謂的"勝率"是怎計算出來的? : 不外乎用盤面上所得到的資訊轉換成數據 : 再代入勝率函數得到每一點的勝率 : 那這個函數適用於任何盤面嗎? 沒有任何邏輯漏洞和盲點? : 算出來的勝率沒有誤差? 如果有個點勝率是70% : 具體來說應該是下了這個點跑到結束N次有0.7*N次會贏 : 但明明就還沒下完也不知道對方會怎下 : 所以只要能騙過電腦讓他一直下到誤判勝率的棋 : 阿發狗就會輸到怎死的都不知道了 : 問題是要怎騙過阿法狗? : 我不知道 ! 以前的圍棋程式所用的蒙地卡羅演算法它的原理簡單的說就是在目前的棋盤上，下了某一子之後隨機開始落子，直到最後一子結束最後判斷是黑勝還是白勝之後重複N次的隨機落子，然後看這N次裡面，黑勝幾次，白勝幾次這樣就可以判斷下這一子的勝率為何當然我們知道，黑白相互交錯隨機落子，變化總共有361!=10^768 就算是雙方各下100步之後的情勢，也還有161!=10^286 基本上都是超級天文數字，電腦不可能做全部的隨機事件所以電腦基本上只能做到有限的N次隨機次數基本上圍棋盤面的真正變化次數跟電腦運算可隨機的次數差距越小獲得的機率數值就越可能接近正確值 https://youtu.be/KMkjtZtGBsE

(網路有用蒙地卡羅法求π，看完大概就可以了解以上這段) 所以以前的圍棋程式在初期布局的時候常會下出讓人類覺得很可笑的布局越到後面變化越少時，則正確率越高 AlphaGO當然是超級進化版它利用了類神經網路的學習，參考了人類棋譜並自己跟自己對下累積了數千萬盤棋練出了所謂的"直覺"，可以把一些荒謬的落子排除掉 (例如第一手八七這種荒謬的棋步) 大幅度減少了隨機事件，使得演算法推估勝率能更為準確真正理論上的「圍棋上帝」是使用窮舉法的暴力演算其運算變化是個天文數字，依照目前的電腦是辦不到的所以AlphaGo絕對不是「圍棋上帝」不過也不要因此小看了AlphaGo 簡單的問題讓大家想想吧 A=(10^768- 10^265)/(10^768) A這個數字我們都知道不是100%，但它跟100%有什麼不一樣? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.134.57.127 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457701983.A.E5D.html ※ 編輯: indium111 (220.134.57.127), 03/11/2016 21:16:04

推

birdy590

03/11 21:18, , 1^F

03/11 21:18, 1^F

→

birdy590

03/11 21:18, , 2^F

03/11 21:18, 2^F

→

aaaba

03/11 21:21, , 3^F

03/11 21:21, 3^F