[閒聊] ALPHA GO 輕鬆介紹

看板GO作者yeahhuman (人)時間5年前 (2019/05/19 22:19)推噓17(18推 1噓 45→)

留言64則, 15人參與討論串1/1

雖然標題說是輕鬆介紹，但是我是盡量把數學概念轉化成具體的能想像的事物。給對圍棋熟悉，但是不甚完全了解AI下棋，尤其是ALPHA GO(以下只稱AG)的板友，我會盡可能省略一些術語以及一些比較難而細節的部份，盡量維持在人腦下棋與AI下棋的差異。我很討厭所謂的科普結果還是只有相關懂的人才看得懂的文章。 AI下棋的基礎還是建立在窮舉法，以及混入一些決策過程，但這以前只適用在象棋，西洋棋這類從印度發源的棋類。即使是將棋還加入了打入的手段也不例外。因為每個棋都有各自被限制棋類的功能性，因此在當下盤面，使用窮舉法馬上就可以知道接下來的一兩步盤面變化，而這些盤面變化又可以很輕鬆的刪去很多不必要的走法: 例如走到某一點直接毫無意義被吃掉。 AG結合了很重要的三個過程: 1) 背棋譜，但不一定必要，也可以採用另一種方式建立AG，直接下兩個過程來回建立出自己的棋譜 2) 人類神經模擬 3) 有效率的窮舉法其中前兩者與高端棋士做的事情差不多，但要注意所謂的人類神經模擬，只有一部份真的與人在判斷盤面變化時有關係。而窮舉法在這裡扮演的腳色，已經不是以往大量直接從盤面取得的盤面資訊，進行窮舉。AG使用了更有效率，採用盤面勝率評估(以下會提到)高的一些節點進行窮舉，這樣省下了非常大部分的運算。我們從AG從建立到下棋的過程說起，首先是背棋譜，這時與高端棋士一樣背了大量棋譜。所以基本的局部死活題理解，高端棋士是與AG旗鼓相當的。對於詰棋大致上AG不太會出錯的。以下稍微複雜一點，但是只要用自己下棋的思考過程來想，應該不是太困難。在背了大量棋譜後，AG並不滿足現有的棋譜，它開始進行自我訓練，採用蒙地卡羅樹可以在這部分得到很大的幫助，蒙地卡羅樹基本上就是考慮到勝率評估，開始進行選點，採用那些點往下延伸之後的可能一些走法，每一個蒙地卡羅樹下的某一步如果明顯劣於這樹下的其他走法會直接被中止運算。至於什麼是蒙地卡羅樹?每一個蒙地卡羅樹可以想像成，你在下棋時先想到下這個點，然後開始推算後續變化，各種後續變化就構成一個蒙地卡羅樹。有些走法(在蒙地卡羅樹下) ，被評估明顯劣勢甚至輸掉，你就不會再考慮，AI的行為則是會直接截斷這條線之後的走法不再運算，如果這個選點(整個蒙地卡羅樹)最後你認為全部延伸走法都沒意思，那整個蒙地卡羅樹也會直接被終止不再運算，並考慮其他蒙地卡羅樹。非常重要的是，在這自我訓練過程，AG會盡可能選一些不一樣的點下棋，一直下到完。這會產生勝率評估值。每一個蒙地卡羅樹會跑到破1000次的後續走法模擬，而且也會隨機下棋以試試看新走法，但人類在一個蒙地卡羅樹也許只能推到後續幾十步，高端棋士可能到破百步。這樣的AG自我練習，會生出非常大量的新形態棋譜，而且就算一開始只讓它背高端棋譜，這自我練習的總體品質仍然會高於原有輸入的高端棋譜。因為在這部分原有的棋譜會被拿出來當作自我對弈的目標。再來就是這個勝率評估值會分配給每個走法，形成一個有權重的下棋方向。什麼叫做有權重的下棋方向?權重在這裡很簡單，就是勝率評估值，AG從大方向(最後的勝利)出發，最後將形成一個權重網路。這裡就想像成你在蜘蛛網上走路(別管蜘蛛網黏不黏)，最終目標是要走出蜘蛛網(只要走出去就算勝利，不用管走哪條路)，蜘蛛網的線有些很細，有些很粗，你會理所當然走粗的線以防斷掉。但是也要考慮到權重網路，如果眼前有一條很粗的線，卻只通往全部都是極細的線，那你當然就不會走這條路，而會選擇一條整體每條線負重力總和最大的路線，這裡就是前面提到的部分的人類神經模擬。但是別忘記，AI可以直接給出每條線一個勝率評估值，最後進行總和，而人腦只能靠直覺給出一個大略的數值。而且高端棋士雖然背了上萬份棋譜，但是AG自己亂下試出了更多勝率更高的棋譜變化。接著隨著對手下的每一步棋，整個蜘蛛網絡會重新更新一次，AG再次進行蒙地卡羅樹的運算。 ================================= 這裡我想要補充一些d大的建議，以及推文的疑問沒錯，這裡我的確在說明的順序上沒處理好，我一開始就有注意到。蜘蛛網的每條線其實就是勝率評估值，在心裡評估怎麼走出去時，蜘蛛網會不斷改變，這裡就是大量的蒙地卡羅樹組合而成的蜘蛛網。而勝率評估值很仰賴評估對手下一步會怎麼下，所以才會有本文的最後一段:對手下一步會如何下的評估準確率。所以A大考慮是正確的，預測兩方彼此下了幾十步甚至幾百步， AG給出一個勝率評估值，而這個值本身又有一個誤差，這點在ALPHA GO的論文中也有提到。 ================================= 因此高端棋士會輸給AG原因是因為: 1) AG背的棋譜及數量就已經比較優秀以及更大量(AG: 二到四千萬份棋譜 vs 高端棋士: 一到二萬份棋譜) 2) 在一個走法的勝率評估上算出相對準確的值，例如這步棋差異可能高達0.5%勝率差距，但人類評估不出來，累積下來就是AG必勝 3) 在同樣的時間內AG可以多開幾個蒙地卡羅樹，也就是多判斷幾個走法，這個部分就是讓高端棋士比較迷惑之處，看似沒意義的一步，但是AG算過後，發現勝率評估值比起小戰場的勝敗還高的話，AG會選擇這步(不過這步勝率評估值篇高甚至可能早就在AG的自我對弈中發現了，不用當場算出來)。直接對AG的實力進行對弈評估，目前結論是看出先餵給它大量棋譜進行監督式學習，它對於目前權重網路，對手下一步(限高端棋士)的預測準確率比較高; 但是讓它自己學習，一開始顯然較弱，但是它最終的ELO卻會高於讓它從所謂的高端棋譜起步的AG。這裡出現一個很有意思的問題，也就是說直接給AG自己在規則下自我下棋學習，它最後的強度，會突破先餵給它棋譜的實力。而且根據AG的圖表，大概在只要訓練20~36小時(這時自己學習的AG顯然也出現ELO的上升趨緩，所以僵持了比較久才明確超越，但後面又會忽然提升)左右，自己學習的AG的ELO便可以穩定超越受監督的AG。然而對於針對高端棋士的下一步預測準確率，在自我訓練下棋的AG卻永遠低於受監督AG。這點根據研究結果，團隊只指出自我學習的AG發展了自己的一套策略。這點也許是因為所謂"高端棋士的棋譜"其實不是勝率最高的，以至於自我訓練的AG對於人類的棋譜，有較低的準確率，因為建立它在自己更優秀的整體棋譜上。關於以上這點有了解的人，或許可以說明，謝謝。 --------------------------------------------- 我不希望用數學迷惑版友，不像某人為了證明自己毫無研究過的論點，講出一大堆對毫無幫助的數學名詞，想為自己的立論佐證，我認為這點毫無意義。另外我也為我幾天前的暴躁感到抱歉，當時我已經連續工作了超過32小時，回到住處卻發現某人跟風在諷刺我的刪文，我無論如何也是老PTT人，知道刪別人文的嚴重性。本來想給它台階下，結果它卻跟風嘲諷我的恥度，所以當下極為暴怒。總之抱歉，希望這篇文99%的版友都看得懂，知道AG到底在做什麼，這就達到我之前的承諾了，謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.151.21 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1558275577.A.892.html

推

yyc0921

05/19 23:23, 5年前 , 1^F

05/19 23:23, 1^F

推

iamgodisme

05/19 23:27, 5年前 , 2^F

05/19 23:27, 2^F

→

iamgodisme

05/19 23:27, 5年前 , 3^F

05/19 23:27, 3^F