[情報] 人類利用AI發掘的漏洞再度擊敗圍棋AI

看板GO作者KAOKAOKAO (鬼斗)時間1年前 (2023/02/18 08:33)推噓20(20推 0噓 37→)

留言57則, 12人參與討論串1/1

先前板上也有板友分享相關論文最簡單說原理是訓練另外一組AI模型對抗式的去找出頂尖模型（Katago/Leela）的漏洞現在的進度則是棋力達到業餘頂尖的棋手有能力學習該模型的策略反過來擊敗先前已經遠遠超過人類等級的模型並且有穩定表現（KGS 14勝1負）現在這個網站有棋譜可以線上閱覽 https://goattack.far.ai/human-evaluation 摘要 1. 這個鑽漏洞模型的對局下不贏尋常棋手（網頁第一譜） 2. 鑽漏洞策略精神之一：讓AI包圍自己，自己委屈兩眼活 3. 鑽漏洞策略精神之二：從外面偷偷包抄AI的包圍網，會發現AI的反應有點異常成功的話就能反包抄AI原先的超厚勢有趣的點 1. Leela 那一局，對抗者的114手在黑陣中掙扎，Leela 115 竟然是滑標級脫先？感覺上是真的是一種漏洞... 2. Katago 那一局，對抗者86跳、88飛已經以客犯主。 AI 黑棋 97、101 連續照顧自己其他的疆界，結果上方對抗者的孤棋就這樣異軍突出，完成了反包圍。這一譜佈局時，對抗者的白棋在左邊與下邊的連續二線潛水很好笑，另一篇報導中提到，這個反包圍策略需要「在其他角落行棋使AI分心」，所以應是為此的準備。報導：https://www.ft.com/content/175e5314-a7f7-4741-a786-273219f433a1 3. 大家應該想問，為什麼不對絕藝這樣操作？我也很好奇。 4. 現在球又被丟回來AI研究者這邊了，深度強化學習為什麼會出現這樣的盲點？從圍棋領域內來講，看起來是對於自己的厚勢產生了超過常理的自信？雖然從棋的內容來看未必符合大家期望的弒神的快感，但這也是剛起步的機器智慧與掙扎的人類智慧的碰撞吧，也是一局很大的棋。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.230.135.113 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1676680409.A.9FE.html

推

02/18 10:16, 1年前 , 1^F

02/18 10:16, 1^F

高段業餘棋手在 kgs 15戰14勝不過的確很難想像會偷襲成功

推

02/18 10:27, 1年前 , 2^F

02/18 10:27, 2^F

→

02/18 10:28, 1年前 , 3^F

02/18 10:28, 3^F

推

02/18 10:30, 1年前 , 4^F

02/18 10:30, 4^F

→

02/18 10:30, 1年前 , 5^F

02/18 10:30, 5^F

推

02/18 10:35, 1年前 , 6^F

02/18 10:35, 6^F

推整理 ※ 編輯: KAOKAOKAO (36.230.135.113 臺灣), 02/18/2023 15:09:15

推

02/18 16:28, 1年前 , 7^F

02/18 16:28, 7^F

→

02/18 16:29, 1年前 , 8^F

02/18 16:29, 8^F

推

02/18 21:27, 1年前 , 9^F

02/18 21:27, 9^F

→

02/18 21:27, 1年前 , 10^F

02/18 21:27, 10^F

→

02/18 21:29, 1年前 , 11^F

02/18 21:29, 11^F

推

02/18 21:35, 1年前 , 12^F

02/18 21:35, 12^F

AI初心者想請教 ddavid 大大多描述些這兩者的差異小弟只知道MNIST的監督式學習的一點概念 overfitting 大概就是會變成手寫字寫得不夠像 dataset 裡面的數字的話會辨認錯但這又如何與「本來就沒處理到」區別開來呢？

→

02/18 21:37, 1年前 , 13^F

02/18 21:37, 13^F

→

02/18 21:38, 1年前 , 14^F

02/18 21:38, 14^F

的確 adversarial attack 至少五年以前就有理論了但除了對抗式模型能夠成功之外小弟認為這則新聞裡面的「人」的成份特別有趣先前板上的討論分享之中大家原本都以為是AI模型對非常理虛手的處理不佳導致有漏洞可鑽、會輸掉但這篇 blog 強調了另外一組對抗策略：反包圍偷殺而且反包圍偷殺作戰的執行是可以由人類去復現執行的很多圍棋 youtuber 把 AI 捧的跟神一樣但是 AI 面對反包圍偷殺作戰將自己的包圍網顢頇地送掉在厚薄的判斷上顯然有盲點 ※ 編輯: KAOKAOKAO (114.25.73.146 臺灣), 02/19/2023 09:29:25

推

02/19 12:14, 1年前 , 15^F

02/19 12:14, 15^F

→

02/19 12:15, 1年前 , 16^F

02/19 12:15, 16^F

推

02/19 12:51, 1年前 , 17^F

02/19 12:51, 17^F

→

02/19 12:52, 1年前 , 18^F

02/19 12:52, 18^F

推

02/19 22:52, 1年前 , 19^F

02/19 22:52, 19^F

→

02/19 22:57, 1年前 , 20^F

02/19 22:57, 20^F

→

02/19 22:57, 1年前 , 21^F

02/19 22:57, 21^F

→

02/19 23:15, 1年前 , 22^F

02/19 23:15, 22^F

→

02/19 23:16, 1年前 , 23^F

02/19 23:16, 23^F

→

02/19 23:17, 1年前 , 24^F

02/19 23:17, 24^F

→

02/19 23:18, 1年前 , 25^F

02/19 23:18, 25^F

推

02/19 23:22, 1年前 , 26^F

02/19 23:22, 26^F

→

02/19 23:22, 1年前 , 27^F

02/19 23:22, 27^F

推

02/19 23:29, 1年前 , 28^F

02/19 23:29, 28^F

→

02/19 23:29, 1年前 , 29^F

02/19 23:29, 29^F

→

02/19 23:30, 1年前 , 30^F

02/19 23:30, 30^F

→

02/19 23:33, 1年前 , 31^F

02/19 23:33, 31^F

→

02/19 23:34, 1年前 , 32^F

02/19 23:34, 32^F

→

02/19 23:35, 1年前 , 33^F

02/19 23:35, 33^F

→

02/19 23:35, 1年前 , 34^F

02/19 23:35, 34^F

推

02/19 23:39, 1年前 , 35^F

02/19 23:39, 35^F

→

02/19 23:40, 1年前 , 36^F

02/19 23:40, 36^F

→

02/19 23:42, 1年前 , 37^F

02/19 23:42, 37^F

→

02/19 23:44, 1年前 , 38^F

02/19 23:44, 38^F

→

02/19 23:45, 1年前 , 39^F

02/19 23:45, 39^F

感謝 ddavid 大的說明剛巧小弟最近在 trace Katago 所以這裡想回饋點不一樣的想法我的結論是以 Katago 的 selfplay 作法幾乎不可能靠自己挖掘到這個盲點現在 katago 的模型棋力演進是靠眾人貢獻算力技術細節上 OpenCL 安裝完下個 "katago contribute" 就會自動開始跑 GPU 自我對戰然後上傳某些盤面下的著手給伺服器端去訓練下一輪的模型這個網址有貢獻者的清單 https://katagotraining.org/contributions/kata1/ 其中每個人貢獻的內容有分 training 和 rating training 是使用最新的 katago 模型自我對戰當中的某些著手 rating 則是新舊版本間的 katago 模型對戰用來幫新模型定段（ELO）那這就有趣了儘管一路走來新的模型等級分總是越來越高那為什麼還會留下這些對人類業餘低段甚至低級棋手都覺得很荒謬的盲區呢？ d 大說說圍棋 AI 不神的人們是過度反應我倒覺得武斷了 AlphaGo/AlphaZero/MuZero 等深度強化學習體系的模型裡面至少 Leela/Katago 這兩者在成長過程中竟然會留有盲區這不是很不神的事情嗎？換個領域做比方當我們說到「速度之神」這個概念的時候不管腦中想像的是希臘神話的荷米斯或是紅牛的F1賽車至少我們不會預期祂或它經過訓練或研發之後跑一跑回過頭來倒輸烏龜吧？甚至人類自己努力跑還是會跑輸但只要學烏龜跑就能跑贏「神」當然任何人類都已經很難靠自己贏過 ELO 上萬的模型這是事實但是思考「神」這個字本身的意義以及理想的境界以作為未來的指引應不至於那麼無聊上述的「神」的意義論述其實都是在表達一個驚異感「強度」這個我們一直以為是單一維度的東西竟然也開始扭曲了變得像是剪刀石頭布一樣有生剋在裡面至於這個是方法論上的性質（只要調整AI的參數、設計、演算法本身）就可以改良或是學理上註定會有這種特徵（所有的線性等級分度量註定在某個尺度後扭曲、強度的遞移律並不普遍存在）在接下來被 AI 所影響的長遠的未來的各個領域人們必須發展出不同的策略去應對針對前者可以預期大型機構持續探索各種方法但如果後者的理論被證明或建立大家就會終於恍然大悟田忌賽馬一般的賽局到處都存在只是尺度不是三匹賽馬的數量級而已

→

02/19 23:45, 1年前 , 40^F

02/19 23:45, 40^F

→

02/19 23:46, 1年前 , 41^F

02/19 23:46, 41^F

→

02/19 23:47, 1年前 , 42^F

02/19 23:47, 42^F

→

02/19 23:47, 1年前 , 43^F

02/19 23:47, 43^F

也許 AI 對於圍棋這個經典遊戲來說就只能停留在「輔助學習」的定位西洋棋界人機混戰（https://en.wikipedia.org/wiki/Advanced_chess）也仍是少數也許圍棋賽事裡面的 AI 影響力未來也很難從現在的離線學習、賽況分析進入到即時對抗所以評論說一個對抗式圍棋模型完全沒有商業價值是合理的這個東西本來就是一個研究專案、幾篇論文而不是哪個棋院或是法人推出來的產品但對於未來將使用強化學習模型作為界面的其他領域應用的話對抗式AI 也就是「硬搞出來的」的那些作法不管是在攻擊端還是防禦端都會有需求的比方說 chatGPT 現在只需要有技巧的詠唱就可以繞過限制器以產生情色與仇恨內容但是未來可能會升級成連限制器本身都是 AI 模型屆時破解這些限制器的對抗模型就可能會很值錢了 ※ 編輯: KAOKAOKAO (114.25.73.146 臺灣), 02/20/2023 11:22:38

推

02/20 16:53, 1年前 , 44^F

02/20 16:53, 44^F

推

02/21 07:48, 1年前 , 45^F

02/21 07:48, 45^F

推

02/21 08:53, 1年前 , 46^F

02/21 08:53, 46^F

→

02/21 08:53, 1年前 , 47^F

02/21 08:53, 47^F

→

02/21 08:55, 1年前 , 48^F

02/21 08:55, 48^F

→

02/21 08:55, 1年前 , 49^F

02/21 08:55, 49^F

推

02/21 14:37, 1年前 , 50^F

02/21 14:37, 50^F

推

02/21 14:40, 1年前 , 51^F

02/21 14:40, 51^F

推

02/21 15:19, 1年前 , 52^F

02/21 15:19, 52^F

→

02/21 15:19, 1年前 , 53^F

02/21 15:19, 53^F

小弟確實是學藝不精根柢不深不過本文並不是拿神經網路訓練好的 model 張量來互相比較大小而是以這三組模型（Leela、Adversial、業餘高段人肉大腦）的長時間綜合行為的結果來比所謂長時間綜合結果或說互相對局表示我不是單純的以某些張量的函數在比較 f(L) f(A) f(Human) 的值如果我有什麼誤會那就請 T 大多多指教了回到我在推文中的速度之神的類比 F1 賽車也是現代工藝的頂尖成果之一裡面牽涉的控制模型、空力動力熱力電力應該也很複雜吧哪一天有一隻針對性的緩慢機械可以拼贏它的話不是很誇張嗎？ ※ 編輯: KAOKAOKAO (114.25.73.146 臺灣), 02/21/2023 15:48:13

→

02/21 21:20, 1年前 , 54^F

02/21 21:20, 54^F

→

02/21 21:20, 1年前 , 55^F

02/21 21:20, 55^F

→

02/21 21:20, 1年前 , 56^F

02/21 21:20, 56^F

推

02/21 23:59, 1年前 , 57^F

02/21 23:59, 57^F

‣ 返回看板[ GO ] 棋類

‣ 更多 KAOKAOKAO 的文章

文章代碼(AID): #1Zy1pPd- (GO)