Re: [問題] 贏少目的勝率會高於贏多目的勝率?

看板GO作者 (毒奶王)時間7年前 (2017/05/26 23:07), 7年前編輯推噓19(25664)
留言95則, 26人參與, 最新討論串2/2 (看更多)
原PO底下推文不夠精闢 恥於同流另回一篇 ※ 引述《solomn (九米)》之銘言: : 看了討論文 : 說AI只考慮勝率 : 那麼為什麼贏少目的勝率會高於贏多目的勝率? : 棋理是如何解釋 : 謝謝 這跟「棋理」沒有關係 是AG的運算模式所造成 簡單講就是剪枝對勝率影響的效果在某些時候會大過目數對勝率的影響效果 比如說今天要收官了 盤面大概AG贏20目 假設這時候有兩個選點: A點:先手5目,可是後續一套比較複雜 B點:後手-5目,而且盤面上明顯在送,但可以減少10M個節點的計算量 由於AG「只管贏棋不管贏多少」的目標設定 經過勝率計算後很可能反而去選B點這種莫名其妙送菜的點 因為反正它現在還贏20目 它不需要去冒這10M個節點的計算風險 搞不好其中有殺龍翻盤手段 請注意...哪怕狗狗的TPU算度再強 程序本身所使用的蒙地卡羅法並沒有人類所謂「局部算清」的這種概念 它永遠面對的是仍有無數可能著點的全域... 在沒有辦法窮舉的情況下 大量減少分枝但是還可以贏的著點 雖然表面上在送 對電腦來講反而是最沒有風險的著點 這種為了減少計算量進行退讓的事情其實人類職棋也是常常在幹... 你看那讀秒階段 勝勢一方真的有辦法處處局部算清官子滴水不漏???? 哪有可能~~~~~~~~ 幾乎多少都會送一點 換取棋形的穩定 ............只是說職棋送著送著送到被翻盤屢見不鮮 AG貌似送了一堆而且送的很荒謬但還是很穩 最後回到所謂「棋理」的部分... 所謂「棋理」我個人定義為窮舉後的最佳手法 在開局階段無論電腦或人類都不可能進行窮舉...... 所以即使是AG也只能說是近於道 無法真正描述什麼是道 可是官子階段就不同了... 不只是職棋有辦法憑藉強大的局部計算能力算清 舊式的以暴力計算為基礎的圍棋軟體更是滴水不漏 我覺得AG應該設定成: 比如說它覺得勝利(或認輸)的標準是70%(或30%) 那接下來的遊戲進程就交給另一套以暴力計算為基礎的軟體來進行目數極大化的工作 以免後續的官子根本不能看XD 如果覺得這樣不保險 甚至可以嘗試寫一套判斷何時應該切換模式的學習程序讓AI學習... 只要抓住了轉換模式的時機 以AG強大的硬體配備跑暴力計算軟體 在後盤血虐職棋根本不是夢! 有夢最美...讓我們期待見證「棋理」的那一天! 哈哈哈哈~~~~~~~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.13.133.170 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1495811271.A.FC9.html

05/26 23:11, , 1F
最後一段的學習程序可能有點困難? 既然不切換下也贏,
05/26 23:11, 1F

05/26 23:12, , 2F
說不定它自己穩定的學習結論就是永遠不切換 :p
05/26 23:12, 2F

05/26 23:14, , 3F
或者說缺乏適合的對練對象來進行這個學習
05/26 23:14, 3F

05/26 23:20, , 4F
精闢你__,廢話一堆
05/26 23:20, 4F

05/26 23:21, , 5F
我倒是覺得因為雙方接近的棋局, alphago展開的分支比較詳盡
05/26 23:21, 5F

05/26 23:22, , 6F
謝謝你另回這篇可以放心噓
05/26 23:22, 6F

05/26 23:23, , 7F
在新版本學習的過程中,被原本系統評估勝率過低而投降局
05/26 23:23, 7F

05/26 23:23, , 8F
最後不太可能 Google想做學會下棋的AI 不是完美的下棋機器
05/26 23:23, 8F

05/26 23:23, , 9F
其後分支還會不會展開很難說
05/26 23:23, 9F

05/26 23:29, , 10F
換言之,如果AG判斷已經輸掉的局,他會投降而不是等對方出錯
05/26 23:29, 10F

05/26 23:30, , 11F
像今天配對賽,在AG投降之後,價值和策略網路大概就失效了
05/26 23:30, 11F
不是 我的意思就是說把AG改成如果它要投降那就改由暴力計算軟體接手 也就是根本上取消投降機制的意思 用目數極大化方式後盤狂追逆轉才能真正體現棋道! ※ 編輯: BluffKing (101.13.133.170), 05/26/2017 23:35:37

05/26 23:37, , 12F
大優勢和大劣勢行棋 AG 不會. 因為大劣勢的AG會投降
05/26 23:37, 12F

05/26 23:38, , 13F
所以大優勢, 大劣勢行棋永遠不會學習到網路中
05/26 23:38, 13F
這就是為什麼我說要另寫一個學習程序的原因 切換模式的判斷必須也只能是獨立的 ※ 編輯: BluffKing (101.13.133.170), 05/26/2017 23:40:56

05/26 23:41, , 14F
目前看來AG只學到從頭開始穩穩贏,還有勝率過低的時候會投降
05/26 23:41, 14F

05/26 23:45, , 15F
絕藝就是類似這樣的設計,所以死活問題很嚴重
05/26 23:45, 15F
可能還在學習吧 另外一個重點是程序本身計地部份必須毫無bug... 我覺得這部份沒弄好很可能是其他軟件輸AG的原因

05/26 23:49, , 16F
重點是,誰能讓AG大劣勢投降....
05/26 23:49, 16F
AG自己

05/26 23:53, , 17F
優勢退讓, 劣勢送頭. 最後學到半目勝
05/26 23:53, 17F

05/26 23:54, , 18F
關鍵點:誰能讓阿法狗出現大劣勢 這已經是不可能的了
05/26 23:54, 18F

05/26 23:55, , 19F
李世石, 三寶, 醫療, 太空
05/26 23:55, 19F

05/26 23:56, , 20F
看後續數據會不會公布今天配對賽有沒有風向大逆轉
05/26 23:56, 20F

05/26 23:58, , 21F
在版上發5篇篇篇廢文也不簡單
05/26 23:58, 21F
分明U文,懂? 不要謾罵

05/27 00:18, , 22F
你的最後一段毀了這篇......
05/27 00:18, 22F
想見證棋理難道臭了嗎? ※ 編輯: BluffKing (101.13.133.170), 05/27/2017 00:34:51

05/27 00:29, , 23F
收官時 如果都算清了 所謂多五目但有風險是何種風險?
05/27 00:29, 23F

05/27 00:31, , 24F
如果到官子時真的都算清了 送5目和多拿5目勝率應該都是100
05/27 00:31, 24F

05/27 00:32, , 25F
在勝率100時決策方式任意選或是單純選計算複雜度低吧
05/27 00:32, 25F

05/27 00:33, , 26F
若是官子時還有機率問題表示以AG算法那時也還沒算清吧?
05/27 00:33, 26F
我上面有提到,蒙地卡羅無法算清 全域計算必須剪枝使得算清變成不可能 但用暴力計算軟體只計算局部 局部算清是可以做到 只是說又會碰上老問題 就是棋形切割判斷和死活問題 ※ 編輯: BluffKing (101.13.133.170), 05/27/2017 00:44:54

05/27 00:35, , 27F
如果都算清了,贏1目和贏10目對電腦都是一樣的
05/27 00:35, 27F

05/27 00:36, , 28F
其實設個門檻當勝率到100時在100的步中選贏最多的
05/27 00:36, 28F

05/27 00:36, , 29F
亂下就很合理了,只要不亂下到會輸棋就可以了
05/27 00:36, 29F

05/27 00:37, , 30F
是都一樣 所以沒必要特別選1目的啊 所謂贏10目有風險那是
05/27 00:37, 30F

05/27 00:37, , 31F
沒把贏10目那個算清吧
05/27 00:37, 31F

05/27 00:37, , 32F
因為你根本不懂官子要好到底是要加強MCTS還是VN啊
05/27 00:37, 32F
還有 23 則推文
05/27 08:39, , 56F
紅明顯 還是很多人覺得贏就是要贏到最多(?
05/27 08:39, 56F

05/27 08:41, , 57F
收官損目可以說AlphaGo收官能力不如職業棋士嗎?
05/27 08:41, 57F

05/27 08:42, , 58F
還是寧願損目也要搶先手是更高強的棋藝?
05/27 08:42, 58F

05/27 08:43, , 59F
在人工智慧上,減少硬體的計算負擔的確很重要
05/27 08:43, 59F

05/27 08:45, , 60F
對AG開發團隊,能用最少的計算量確保一定獲勝,
05/27 08:45, 60F

05/27 08:45, , 61F
應該是他們的終極目標?
05/27 08:45, 61F

05/27 08:54, , 62F
以計算來說,不管是下在哪裡都是在減少分枝吧
05/27 08:54, 62F

05/27 08:56, , 63F
個人覺得出現官子亂下最大的原因還是在於MCTS
05/27 08:56, 63F

05/27 10:07, , 64F
只要贏就好 這對於設計程式比較簡單 幹嘛去下一堆設定
05/27 10:07, 64F

05/27 10:07, , 65F
更何況人工智慧雖然進步飛速 都還是在開發階段 確立簡單
05/27 10:07, 65F

05/27 10:08, , 66F
可執行的目標比設定一堆目標還來得實際多
05/27 10:08, 66F

05/27 10:08, , 67F
而且這本來就不是只為了陪人類下棋設計的
05/27 10:08, 67F

05/27 10:10, , 68F
贏越多越好 那AG就會下超猛的 從頭猛到尾
05/27 10:10, 68F

05/27 10:10, , 69F
這又更不像人類了
05/27 10:10, 69F

05/27 10:37, , 70F
好奇原po從什麼資料位基礎做出這篇分析(?
05/27 10:37, 70F

05/27 11:45, , 71F
單純是目標設定問題,AG目標就只有估計勝率,勝率接近到它
05/27 11:45, 71F

05/27 11:45, , 72F
分不出來的都是一樣的,沒有特別因為什麼理由選什麼變化
05/27 11:45, 72F

05/27 11:45, , 73F
都只是從一堆以目標來說都一樣的變化隨機選而已
05/27 11:45, 73F

05/27 12:33, , 74F
現在目標根本是設定贏最少目吧
05/27 12:33, 74F

05/27 12:37, , 75F
那是因為贏多的時候AG早就投降了
05/27 12:37, 75F

05/27 12:53, , 76F
可以看deepmind CEO演講, 他們的目標是通用型AI平台
05/27 12:53, 76F

05/27 12:54, , 77F
希望作的東西可以應用到其他地方,且盡量靠演算法自己學規則
05/27 12:54, 77F

05/27 12:55, , 78F
而不會把人類經驗規則寫進去
05/27 12:55, 78F

05/27 12:59, , 79F
可以推測他們不會把alphago打些補丁變成人類理想的高手
05/27 12:59, 79F

05/27 13:00, , 80F
這件事會變得太過特化,對他們的長遠目標沒價值
05/27 13:00, 80F

05/27 13:01, , 81F
圍棋特化可能絕藝那邊會比較有興趣
05/27 13:01, 81F

05/27 14:34, , 82F
會一直朝最強圍棋軟體前進的只有zen吧,zen7快出吧
05/27 14:34, 82F

05/27 15:02, , 83F
但換個角度想 如果你想要局部優化 就很難建立真正的大局觀
05/27 15:02, 83F

05/27 15:02, , 84F
當然你可以設計一個轉換模式演算法訓練他 但每個轉換都是不
05/27 15:02, 84F

05/27 15:02, , 85F
精確的
05/27 15:02, 85F

05/27 15:53, , 86F
轉換模式跟deepmind理念背道而馳
05/27 15:53, 86F

05/28 13:24, , 87F
C大講得沒錯 局部計算 電腦絕對做得到
05/28 13:24, 87F

05/28 13:24, , 88F
重點是從以前大家都覺得電腦做不到大局觀
05/28 13:24, 88F

05/28 13:24, , 89F
所以真正的挑戰是建立大局觀 這才是AG的價值
05/28 13:24, 89F

05/28 13:25, , 90F
AG證明他們的演算法可以讓電腦模擬人類的棋局判斷
05/28 13:25, 90F

05/28 13:25, , 91F
這就很厲害了 至於旁枝末節的局部計算
05/28 13:25, 91F

05/28 13:26, , 92F
對圍棋或許很重要 但這不是Google團隊真正要做的
05/28 13:26, 92F

05/28 13:26, , 93F
只要不要太離譜下到輸棋 這一點點和人類不一致無傷大雅
05/28 13:26, 93F

05/28 13:27, , 94F
要記住 Google不是燒錢設計電腦來下棋的
05/28 13:27, 94F

05/28 13:28, , 95F
它們要做的是把這一套演算法應用到不同領域
05/28 13:28, 95F
文章代碼(AID): #1PA4J7_9 (GO)
文章代碼(AID): #1PA4J7_9 (GO)