Re: [討論] 淺談AlphaGo

看板GO作者 (可以吃嗎?)時間7年前 (2017/01/05 14:06), 7年前編輯推噓12(12029)
留言41則, 10人參與, 最新討論串4/4 (看更多)
※ 引述《ykes60513 (いちご)》之銘言: : 這幾天 AI又帶給了大家新的衝擊 : AlphaGo又再次進化了 而且遠超乎大家的想像 : 顯然之後AI會更加深入這塊圈子 : 影響只會越來越廣 不得不深思要怎麼看待這場新的革命 : 雖然有些人說AI能使圍棋的發展更進一步 但坦白說我是有些悲觀的 : 因為從本質上AlphaGo就跟人類差太多了 : 首先 AlphaGo的演算法是追求勝率最高 : 假設A走法有90%贏一目 B走法有85%贏十目 AlphaGo會選前者 : 因為對它來說目數不重要 只要能贏就夠了 其實這也不算顛覆的概念,學棋的時候老師也會教你,殺了大龍或大幅領先幾 乎勝定的時候,你甚至可以自己走幾手單官來確保殺得乾乾淨淨不會出棋 只是人的行棋沒有電腦那麼精準,對棋力低的可能領先二十目才能下得這麼保 守,不然很可能被翻盤。高手可能十目就能保持勝勢,對電腦可能就是兩目他 就可以這樣下了 : 另外 AlphaGo都是在做全域運算 它沒有局部的概念 : 這兩點就跟人類的思考方式南轅北轍 : 難怪有人看了AlphaGo的棋感嘆 之前所學的都是錯的 : 就因為兩者的基礎點不同 也可說是演算法的不同 當然演化出來的棋路會有差別 我覺得說他沒有局部概念也不正確,AI取點模擬的時候不會全盤每個點都等價 ,他用訓練出的棋感來猜的時候局部的點一定猜得多。只是說他的模擬方式是 全局下完而已 "過去學得都是錯的"我覺得只是柯潔誇飾性的說法。AI多數行棋也還在人的理 解範圍,會有下完不知道怎麼輸的原因就是他棋力更高。就像低段跟高段下, 明明感覺每個區域都是照定石走,可是就是下不贏這種感覺吧,因為對方子效 就是比你高 當然一定會有顛覆的地方,因為人類對前期的下法好壞本來就是模糊不太確定 的,看布局跟定石都是一陣陣流行的就很明顯。有時候過去覺得不好的定石重 新被拿出來用,結果變成標準型,就知道人對這種東西的判斷是不準確的 比方說AI的五路尖衝,過去棋理告訴人說被四路圍空是吃虧的,但或許這是建 立在一般人對外勢的運用效率不夠好的原因下。看AI的對局,它的外勢不是最 終成空就是能配合攻擊在其他地方取利。人類當然也知道攻擊取利順勢圍空這 些道理,但看AI的對手的外勢常常最後就變單官或是兩眼做活,這就是棋力差 異造成的 : 而哪邊更加接近圍棋之神呢 相信AlphaGo已給出了答案 : 你可以說人類一直都用錯誤的方法學圍棋 : 但這是人類生理上的拘限性所導致的 : 我們幾乎永遠不可能像AlphaGo那樣思考 : 比起目數 勝率那種東西是虛無飄渺的 人類又怎麼能量化呢 : 當然只能計算目數 : 所以說要向AI學習 我是有些疑問的 要怎麼學呢 : AlphaGo會告訴你要那樣下 但為什麼? 不知道 : 你沒法把AlphaGo的棋路內化 因為思考模式就不同 : 頂多只能依樣畫葫蘆 : 這樣的學習效果是有限的 人類不可能用勝率模擬,所以目數是最精確的評估了。人類在小區域對目數的 判斷應該是可以更勝電腦的。比方說一個手筋可以掏掉幾目、每個官子價值多 少、局部死活,這些都是人類已經用窮舉法確定的東西了。只要電腦是用機率 在模擬,這些部分就不會超過人類(人類自己眼殘或腦袋打結的情況先忽略XD) 能不能照學的確是有疑問的,像前面說的,人學AI搶了外勢,理論上不虧,可 是人類能將那道牆運用得跟電腦一樣好嗎?或是像點三三,AI說下完先手他不 虧,但你棋力不到,你搶了先手卻佔不到急場,那你的先手價值就不像AI模擬 的能提高勝率了。也就是說要學AI可能不能只學個走法,你得把他後續的整個 應用的方法稍微搞懂這樣學了才有意義 : 我想過如果AlphaGo不追求最大勝率 而是最大目數的話會如何 : 這樣發展出的圍棋會不會更接近人類呢 : 這樣的發展或許會很有意思 : 相對的 我們對人類至今發展出的圍棋也不需太過悲觀 : 雖然舊的棋路 定石在AlphaGo 甚至圍棋之神眼中或許是錯的 : 但我們還是得擁抱它 : 因為我們是人類 : 不是AlphaGo 我猜測AI反覆使用的型應該是他確定有好處的下法,可以研究。但不見得他每 個走法都是最優。其實從AI的下棋邏輯就可以理解,他既然是靠機率,選的就 不一定是"只此一手"最佳解,只是通常能選到"相對佳"的著手。 人類為什麼下不贏呢?因為人失誤更多,可能某個區域人類細算後選到更佳解 或最佳解賺了三目,但其他小地方一下虧五目一下虧兩目,那盤面還是一直被 牽著走。 其實人類也是求勝而不是追求最大目數,人類會想多追目是因為目數領先越多 對人類來說等同勝率越高,也就是人類很清楚意識到自己會失誤所以留給自己 緩衝失誤的空間。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.235.66 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1483596361.A.D60.html

01/05 14:10, , 1F
“他用訓練出的棋感來猜的時候局部的點一定猜得多” 這句的
01/05 14:10, 1F

01/05 14:10, , 2F
局部是指什麼?
01/05 14:10, 2F
或者從AI有用minimax來想就知道了,近距接觸的話不下在附近有機會崩盤,那自然 會取附近區域的點為主(我的理解是這樣,不一定對XD)。跟人下棋很類似,局部沒告 一段落前落子會先從局部考量吧。

01/05 14:12, , 3F
的確人類很難精確評估形勢,只能努力確保安全邊際
01/05 14:12, 3F

01/05 14:15, , 4F
只有結論不同意 人類追求最大目數 是藝術完美性的要求^^
01/05 14:15, 4F

01/05 14:16, , 5F
柯潔是因為急性腸胃炎住院,可能是計算到胃痛吧
01/05 14:16, 5F
※ 編輯: ilw4e (223.137.235.66), 01/05/2017 14:23:42

01/05 14:19, , 6F
alphaGO用了1,202顆CPU及176顆GPU,不知master是不是
01/05 14:19, 6F

01/05 14:20, , 7F
也一樣,或者是配備又升級了一次
01/05 14:20, 7F

01/05 14:24, , 8F
現代超級電腦有約1000萬顆CPU,AG的電腦只算小咖而已
01/05 14:24, 8F

01/05 14:25, , 9F
簡單說明一下
01/05 14:25, 9F

01/05 14:25, , 10F
AlphaGo 主要的機制有2個 policy network和
01/05 14:25, 10F

01/05 14:25, , 11F
它裡面用的自製 TPU 很重要啊~ 一般的超級電腦又沒有
01/05 14:25, 11F

01/05 14:26, , 12F
value network olicy network會根據所學的棋譜預測
01/05 14:26, 12F

01/05 14:26, , 13F
對手可能的落點位置(相當於人類棋士的經驗)
01/05 14:26, 13F

01/05 14:26, , 14F
value network則根據policy network所提供的落點位子
01/05 14:26, 14F

01/05 14:26, , 15F
評估出最佳的落點位置(相當於人類棋士的計算能力)
01/05 14:26, 15F

01/05 14:28, , 16F
知道有policy network,但對實際怎麼預測不太確定XD
01/05 14:28, 16F

01/05 14:28, , 17F
AG在硬體上進步空間還很大,不過現在也不需要了
01/05 14:28, 17F

01/05 14:30, , 18F
policy network靠所學的棋譜為依據 然後在19*19的棋盤上
01/05 14:30, 18F

01/05 14:30, , 19F
挑選出對手最有可能的落點位置
01/05 14:30, 19F

01/05 14:34, , 20F
但印象中棋譜不是資料庫,只是訓練他參數的工具,最後他怎
01/05 14:34, 20F

01/05 14:35, , 21F
麼用參數可以每步做出選點預測的,這很神
01/05 14:35, 21F

01/05 14:48, , 22F
我先推。不過我想說棋感網路如果不是打劫的情況,根本連前
01/05 14:48, 22F

01/05 14:48, , 23F
幾手戰到哪邊都不知道,他只知道盤面不知順序。他會落子在
01/05 14:48, 23F

01/05 14:48, , 24F
你所謂局部,是因為在他全局考慮到的位置裡,那個局部恰好
01/05 14:48, 24F

01/05 14:48, , 25F
最大
01/05 14:48, 25F

01/05 14:56, , 26F
也就是說假設調換順序,把當前局部在前十手擺完再下剩下的
01/05 14:56, 26F

01/05 14:56, , 27F
步數,讓alphaGo接手,他是很可能去補棋局前十手的局部,因
01/05 14:56, 27F

01/05 14:56, , 28F
為那裡碰巧最大
01/05 14:56, 28F

01/05 15:10, , 29F
所以假設重擺順序後,要點在左上一到十手附近,然後再擺棋
01/05 15:10, 29F

01/05 15:10, , 30F
牌右下有一些接觸戰,棋感網路不會側重那些接觸戰的
01/05 15:10, 30F

01/05 15:15, , 31F
policy network 只是大概用猜的 反正只影響驗算順序
01/05 15:15, 31F

01/05 15:16, , 32F
這篇分析合理推個,阿法狗最顛覆的還是以前人類引以
01/05 15:16, 32F

01/05 15:17, , 33F
為傲的中盤攻殺 AI完全無法 但現在反而是人類當機個
01/05 15:17, 33F

01/05 15:17, , 34F
一兩手緩手就被壓著打到最後,實在可怕
01/05 15:17, 34F

01/05 15:19, , 35F
對啊,我是想強調電腦沒有什麼“告一段落”的概念,目前盤
01/05 15:19, 35F

01/05 15:19, , 36F
面全局哪裡看起來大就優先驗算那邊,而非關當前戰場在哪兒
01/05 15:19, 36F

01/05 15:33, , 37F
下快棋中盤攻殺本來就算不清,沒甚麼引以為傲吧
01/05 15:33, 37F

01/05 15:40, , 38F
我只是想強調以前圍棋AI無法突破的就是中盤攻殺,
01/05 15:40, 38F

01/05 15:40, , 39F
布局定石有模有樣到中盤人類隨便下都贏,但現在不是了
01/05 15:40, 39F

01/05 16:40, , 40F
因為以前電腦圍棋是專家系統現在是深度學習,不是一回事
01/05 16:40, 40F

01/06 13:48, , 41F
推推
01/06 13:48, 41F
文章代碼(AID): #1ORU99rW (GO)
討論串 (同標題文章)
文章代碼(AID): #1ORU99rW (GO)