Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

看板GO作者 (台灣加油)時間6年前 (2017/11/08 20:23), 編輯推噓35(4510176)
留言231則, 30人參與, 6年前最新討論串2/8 (看更多)
※ 引述《qweewqq (風一樣的男子)》之銘言: : DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法 對於 "不使用任何人類知識" 這句, 我心中始終有個大問號. 首先, 在一開始的 random play, AZ 根本不知何時要停. 必須人工設定去停它. 這用到了人類知道這樣的遊戲, 應該有限步要停. 雖然 AZ 的參數是經由自我對戰學的, 但整個架構呢? 要有幾層的的類神經網路? 每層有多少節點? 層跟層間的結構? covolution 要用 5x5 還是怎樣的大小? 要怎樣配合 VN, PN? 要用 MCTS 來尋找? 這些都沒用到人類的圍棋知識嗎? 這整個大架構, 是在學人類棋譜時, 發現這樣的架構, 可以訓練出不錯的 AI. 這架構不是隨便設就行得通的吧? 經由人類棋譜訓練, 找到一個好的大架構, 這樣可以稱作不使用人類知識? 如果今天一個完全不懂圍棋的人, 只針對規則, 就去訂了大模型架構, 然後經由自我對戰去學參數. 這樣的結果, 那叫做不使用任何人類圍棋知識. 現在這樣算嗎? 我心中實在有很大的黑人問號. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.74.113 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1510143808.A.51B.html

11/08 20:29, 6年前 , 1F
說實話,只是你的文字跟他的文字定義不同而已,
11/08 20:29, 1F

11/08 20:29, 6年前 , 2F
今天Deepmind就是在說我今天進入一個新的領域,我不
11/08 20:29, 2F

11/08 20:30, 6年前 , 3F
需要這個領域的知識,只需要最基礎的規則就行,然後
11/08 20:30, 3F

11/08 20:31, 6年前 , 4F
Deepmind 傳達的是,不需要人類棋譜
11/08 20:31, 4F

11/08 20:31, 6年前 , 5F
就能用我豐厚的神經網路知識配合一些搜索去解決它
11/08 20:31, 5F

11/08 20:31, 6年前 , 6F
但它的整個大架構真的沒用到嗎? 我是認為用到了
11/08 20:31, 6F

11/08 20:32, 6年前 , 7F
你的意思是,他新的這套神經網路有用也是基於之前的
11/08 20:32, 7F

11/08 20:32, 6年前 , 8F
深度學習的架構要怎麼設, 不用的領域, 設法不同
11/08 20:32, 8F

11/08 20:33, 6年前 , 9F
try&error,所以現在像星海這種就是很好的試基石
11/08 20:33, 9F

11/08 20:33, 6年前 , 10F
現在是先因為人類棋譜, 它選了適合的模型
11/08 20:33, 10F

11/08 20:33, 6年前 , 11F
如果可行,應該也可以用類似的架構幹出星海zero
11/08 20:33, 11F

11/08 20:34, 6年前 , 12F
如果不行,那就沒這麼好,所以就靜待星海的發展吧
11/08 20:34, 12F

11/08 20:40, 6年前 , 13F
就看最簡單的,把 5x5 換成 3x3 or 11x11, 行得通嗎?
11/08 20:40, 13F

11/08 20:40, 6年前 , 14F
規則不算是知識 沒有規則遊戲本身根本不成立
11/08 20:40, 14F

11/08 20:41, 6年前 , 15F
規則有了, 但什麼時候要停?
11/08 20:41, 15F

11/08 20:41, 6年前 , 16F
它的判斷是從雙方完全亂下開始慢慢訓練出來
11/08 20:41, 16F

11/08 20:42, 6年前 , 17F
沒有人為去設個停止, 電腦會自己填自己的地
11/08 20:42, 17F

11/08 20:42, 6年前 , 18F
你可以看一下AZ最一開始的棋譜,幾乎是把整個棋盤
11/08 20:42, 18F

11/08 20:42, 6年前 , 19F
把棋盤填滿為止 規則不是這樣嗎
11/08 20:42, 19F

11/08 20:42, 6年前 , 20F
填滿了
11/08 20:42, 20F

11/08 20:42, 6年前 , 21F
因為電腦無法判斷, 繼續下, 會不會比較有機會贏?
11/08 20:42, 21F

11/08 20:43, 6年前 , 22F
它真的會 但不用多久就會學會這樣對局面不利
11/08 20:43, 22F

11/08 20:43, 6年前 , 23F
是幾乎,但是, 為什麼不繼續下? 因為有人為設步數限制
11/08 20:43, 23F

11/08 20:44, 6年前 , 24F
另外他判斷規則勝利的方法是Tromp-Taylor scoring
11/08 20:44, 24F

11/08 20:44, 6年前 , 25F
你需要搞懂它的原理 判斷輸贏都是把棋盤填滿為止
11/08 20:44, 25F

11/08 20:45, 6年前 , 26F
這個規則應該是有讓終局well-defined,所以嘗試過
11/08 20:45, 26F

11/08 20:45, 6年前 , 27F
沒有什麼人為限制 填死自己一開始真的會
11/08 20:45, 27F

11/08 20:45, 6年前 , 28F
一陣子就知道把棋盤填滿無意義,填自己的空更不可能
11/08 20:45, 28F

11/08 20:48, 6年前 , 29F
一陣子它會了, 但第一盤呢, 第一盤為什麼有辦法停下來?
11/08 20:48, 29F

11/08 20:48, 6年前 , 30F
棋盤填滿如何不停?
11/08 20:48, 30F

11/08 20:50, 6年前 , 31F
棋盤怎麼填滿, 自己的地可以填啊
11/08 20:50, 31F

11/08 20:50, 6年前 , 32F
MCTS本身就有防呆啊,兩眼不可能自己填死自己
11/08 20:50, 32F

11/08 20:50, 6年前 , 33F
只要不填死自己,就繼續填啊
11/08 20:50, 33F

11/08 20:51, 6年前 , 34F
當一開始什麼都不知道,為什麼知道不能填?
11/08 20:51, 34F

11/08 20:52, 6年前 , 35F
因為你兩眼填成一眼,你就要被提了,MCTS就知道不能
11/08 20:52, 35F

11/08 20:52, 6年前 , 36F
它不知道 這是學會的
11/08 20:52, 36F

11/08 20:52, 6年前 , 37F
很直觀吧?
11/08 20:52, 37F

11/08 20:52, 6年前 , 38F
下了會輸的 這種很快就會避免了
11/08 20:52, 38F

11/08 20:53, 6年前 , 39F
下了會輸,可以避免. 但第一盤呢?
11/08 20:53, 39F
還有 152 則推文
11/10 00:18, 6年前 , 192F
我就一直在問他他口中「人類圍棋知識」的定義
11/10 00:18, 192F

11/10 00:19, 6年前 , 193F
到現在沒個回答,根本討論不下去
11/10 00:19, 193F

11/10 00:21, 6年前 , 194F
其實我停機問題的例子用在這不太對…不過算了……
11/10 00:21, 194F

11/10 00:54, 6年前 , 195F
到底在執著什麼... 守護人類最後的尊嚴是嗎?
11/10 00:54, 195F

11/10 00:55, 6年前 , 196F
拜託先去學圍棋好不好
11/10 00:55, 196F

11/10 03:19, 6年前 , 197F
那個停止條件明明是工程、數學上的條件,他硬要扯到那就是
11/10 03:19, 197F

11/10 03:20, 6年前 , 198F
圍棋知識而且還不能算是規則部分以維護他的論點
11/10 03:20, 198F

11/10 03:24, 6年前 , 199F
事實上就連第一局那種自填到最後滿盤皆子都根本沒有到上限
11/10 03:24, 199F

11/10 03:25, 6年前 , 200F
手數便停止了,那個上限手數根本等於虛設,原本規則上都已
11/10 03:25, 200F

11/10 03:26, 6年前 , 201F
經有能力在上限手數以內結束棋局了
11/10 03:26, 201F

11/10 03:27, 6年前 , 202F
之所以要那個上限了不起只是工程上的保險,因為實際上要估
11/10 03:27, 202F

11/10 03:28, 6年前 , 203F
計填來填去下到全部禁手到底平均可能到達幾手不太容易
11/10 03:28, 203F

11/10 03:29, 6年前 , 204F
所以只是事前工程上理由給個合理值叫停罷了
11/10 03:29, 204F

11/10 10:18, 6年前 , 205F
其實這個問題不是爛問題 因為今天在AI Conf, Google來的講
11/10 10:18, 205F

11/10 10:18, 6年前 , 206F
者也challenge了這點...
11/10 10:18, 206F

11/10 11:04, 6年前 , 207F
目前的確不存在通用的架構, 但這其實還是工程問題
11/10 11:04, 207F

11/10 11:07, 6年前 , 208F
以現在硬體的計算能力, 連工人智慧精心調整出來的架構
11/10 11:07, 208F

11/10 11:08, 6年前 , 209F
都跑的很吃力, 實在很難想像通用的架構會長什麼樣子
11/10 11:08, 209F

11/10 11:31, 6年前 , 210F
CGary 願聞其詳?
11/10 11:31, 210F

11/10 11:37, 6年前 , 211F
整串討論下來,就看到原po在浪費大家時間
11/10 11:37, 211F

11/10 11:39, 6年前 , 212F
簡單說就是神經網路架構也是base on master之前的研
11/10 11:39, 212F

11/10 11:39, 6年前 , 213F
究得出,那就某方面還是借助了master人類棋理的部分
11/10 11:39, 213F

11/10 11:39, 6年前 , 214F
,aja回答那不是借助人類圍棋的知識,是借助人類工
11/10 11:39, 214F

11/10 11:39, 6年前 , 215F
程上對圍棋的認識
11/10 11:39, 215F

11/10 11:46, 6年前 , 216F
aja回答時其實有點不開心 不過我覺得紀挑那個問題就跟原Po
11/10 11:46, 216F

11/10 11:46, 6年前 , 217F
差不多的概念 因為你懂了圍棋 所以那個框架你設計得出來 但
11/10 11:46, 217F

11/10 11:47, 6年前 , 218F
aja回答我覺得也合理 他覺得基於圍棋的知識雖然是因素 但結
11/10 11:47, 218F

11/10 11:48, 6年前 , 219F
果卻是可以通用化到任何的game(完全公開資訊)上, 所以他認
11/10 11:48, 219F

11/10 11:48, 6年前 , 220F
為那是可以這麼說的... (我是蠻能接受這點說法,但同時也
11/10 11:48, 220F

11/10 11:49, 6年前 , 221F
覺得這個問題本質不是爛問題)
11/10 11:49, 221F

11/10 11:49, 6年前 , 222F
工程或學術上的術語定義,大家以之方便溝通,除非能啟迪
11/10 11:49, 222F

11/10 11:49, 6年前 , 223F
新的智慧,不然戰這類定義問題實在是浪費大家時間
11/10 11:49, 223F

11/10 11:50, 6年前 , 224F
並不是這樣的 因為我們完全不知道強AI到底是怎樣 現在討論
11/10 11:50, 224F

11/10 11:50, 6年前 , 225F
嚴格說來 那個框架和圍棋知識還是沒有關係
11/10 11:50, 225F

11/10 11:50, 6年前 , 226F
任何弱AI, 其實都是大量探討定義 因為我們甚至不知道怎麼說
11/10 11:50, 226F

11/10 11:50, 6年前 , 227F
誰說圍棋知識瞭解多的人就能對架構調整有幫助了?
11/10 11:50, 227F

11/10 11:51, 6年前 , 228F
明這件事 不過在圍棋版討論這個沒意義就是了 他應該去那天
11/10 11:51, 228F

11/10 11:51, 6年前 , 229F
真正重要的還是工程知識 而非圍棋知識
11/10 11:51, 229F

11/10 11:51, 6年前 , 230F
Silver的AMA去問的...
11/10 11:51, 230F

12/30 05:54, 6年前 , 231F
奇文共賞
12/30 05:54, 231F
文章代碼(AID): #1Q0lT0KR (GO)
討論串 (同標題文章)
本文引述了以下文章的的內容:
以下文章回應了本文 (最舊先):
完整討論串 (本文為第 2 之 8 篇):
文章代碼(AID): #1Q0lT0KR (GO)