Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

看板GO作者oldTim (TIME WILL TELL)時間6年前 (2017/11/09 14:31)推噓10(10推 0噓 61→)

留言71則, 6人參與討論串3/8 (看更多)

※ 引述《tlchen (台灣加油)》之銘言： : ※ 引述《qweewqq (風一樣的男子)》之銘言： : : DeepMind指出，他們不使用任何人類知識，AlphaGo Zero用上的是新的「強化學習」方法 : 對於 "不使用任何人類知識" 這句, 我心中始終有個大問號. : 首先, 在一開始的 random play, AZ 根本不知何時要停. : 必須人工設定去停它. 這用到了人類知道這樣的遊戲, 應該有限步要停. : 雖然 AZ 的參數是經由自我對戰學的, 但整個架構呢? : 要有幾層的的類神經網路? 每層有多少節點? 層跟層間的結構? : covolution 要用 5x5 還是怎樣的大小? : 要怎樣配合 VN, PN? 要用 MCTS 來尋找? : 這些都沒用到人類的圍棋知識嗎? : 這整個大架構, 是在學人類棋譜時, 發現這樣的架構, 可以訓練出不錯的 AI. : 這架構不是隨便設就行得通的吧? : 經由人類棋譜訓練, 找到一個好的大架構, 這樣可以稱作不使用人類知識? : 如果今天一個完全不懂圍棋的人, 只針對規則, 就去訂了大模型架構, : 然後經由自我對戰去學參數. 這樣的結果, 那叫做不使用任何人類圍棋知識. : 現在這樣算嗎? 我心中實在有很大的黑人問號. Deepmind發言裡所指涉的"知識"，在AI的發展的脈絡中有特殊意義並非廣義上我們理解的知識 === https://technews.tw/2017/08/07/the-3rd-revolution-wave-of-ai-technology/ 第一波人工智慧大約是在 1990 年代前電腦的計算與儲存能力還有限的時候，人工智慧多是以「專家系統」的方式實現。也就是人類將一些專家才懂的知識（如醫學、法律）變成一條條「規則」（如吃多喝多尿多可能是糖尿病）並輸入電腦，電腦就可以藉由這些規則判斷。第二波人工智慧主要是以機器學習運用在巨量資料探勘為本，以大量的資料配合統計及計算科學的方法讓電腦能從事決策。 === 所謂專家才懂的知識，在圍棋中就是棋理，比如說氣、手順、遇劫先提、手割分析法..等 AlphaGO一開始輸入的是人類棋譜選點Data，並沒有根據棋理來寫規則並輸入進程式中你若要找參考人類棋理的AI當然也有，根據我之前轉錄的加藤先生訪談，Zen這類老牌圍棋軟體還保留了一些AlphaGO出現前專家系統的架構，但很顯然與這一波電腦圍棋進展無關。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.226.155.40 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1510209112.A.E1B.html

→

11/09 16:21, 6年前 , 1^F

11/09 16:21, 1^F

→

11/09 16:21, 6年前 , 2^F

11/09 16:21, 2^F

→

11/09 16:22, 6年前 , 3^F

11/09 16:22, 3^F

除了上一篇推文下版友已經幫你解答的"何時停止下棋"之外，你能舉出哪部分的大架構是使用或參考圍棋知識所設計的? AlphaGO當然有許多設計上的眉角，但沒有跡象顯示這些跟圍棋知識有關。

→

11/09 16:54, 6年前 , 4^F

11/09 16:54, 4^F

※ 編輯: oldTim (36.226.155.40), 11/09/2017 18:15:13

推

11/09 18:37, 6年前 , 5^F

11/09 18:37, 5^F

→

11/09 18:37, 6年前 , 6^F

11/09 18:37, 6^F

→

11/09 18:38, 6年前 , 7^F

11/09 18:38, 7^F

推

11/09 18:38, 6年前 , 8^F

11/09 18:38, 8^F

→

11/09 18:39, 6年前 , 9^F

11/09 18:39, 9^F

→

11/09 18:39, 6年前 , 10^F

11/09 18:39, 10^F

→

11/09 18:40, 6年前 , 11^F

11/09 18:40, 11^F

→

11/09 18:40, 6年前 , 12^F

11/09 18:40, 12^F

→

11/09 18:41, 6年前 , 13^F

11/09 18:41, 13^F

→

11/09 18:41, 6年前 , 14^F

11/09 18:41, 14^F

→

11/09 18:42, 6年前 , 15^F

11/09 18:42, 15^F

→

11/09 18:42, 6年前 , 16^F

11/09 18:42, 16^F

→

11/09 18:42, 6年前 , 17^F

11/09 18:42, 17^F

→

11/09 18:42, 6年前 , 18^F

11/09 18:42, 18^F

→

11/09 18:43, 6年前 , 19^F

11/09 18:43, 19^F

→

11/09 18:44, 6年前 , 20^F

11/09 18:44, 20^F

→

11/09 18:44, 6年前 , 21^F

11/09 18:44, 21^F

→

11/09 18:44, 6年前 , 22^F

11/09 18:44, 22^F

→

11/09 18:45, 6年前 , 23^F

11/09 18:45, 23^F

推

11/09 18:47, 6年前 , 24^F

11/09 18:47, 24^F

→

11/09 18:48, 6年前 , 25^F

11/09 18:48, 25^F

→

11/09 18:49, 6年前 , 26^F

11/09 18:49, 26^F

→

11/09 18:49, 6年前 , 27^F

11/09 18:49, 27^F

→

11/09 18:50, 6年前 , 28^F

11/09 18:50, 28^F

推

11/09 18:51, 6年前 , 29^F

11/09 18:51, 29^F

→

11/09 18:51, 6年前 , 30^F

11/09 18:51, 30^F

→

11/09 18:51, 6年前 , 31^F

11/09 18:51, 31^F

→

11/09 18:52, 6年前 , 32^F

11/09 18:52, 32^F

→

11/09 18:52, 6年前 , 33^F

11/09 18:52, 33^F

→

11/09 18:54, 6年前 , 34^F

11/09 18:54, 34^F

→

11/09 18:54, 6年前 , 35^F

11/09 18:54, 35^F

→

11/09 18:55, 6年前 , 36^F

11/09 18:55, 36^F

→

11/09 18:55, 6年前 , 37^F

11/09 18:55, 37^F

→

11/09 18:55, 6年前 , 38^F

11/09 18:55, 38^F

→

11/09 18:56, 6年前 , 39^F

11/09 18:56, 39^F

→

11/09 18:56, 6年前 , 40^F

11/09 18:56, 40^F

→

11/09 18:57, 6年前 , 41^F

11/09 18:57, 41^F

→

11/09 18:57, 6年前 , 42^F

11/09 18:57, 42^F

→

11/09 18:57, 6年前 , 43^F

11/09 18:57, 43^F

→

11/09 18:58, 6年前 , 44^F

11/09 18:58, 44^F

→

11/09 18:59, 6年前 , 45^F

11/09 18:59, 45^F

推

11/09 19:00, 6年前 , 46^F

11/09 19:00, 46^F

→

11/09 19:06, 6年前 , 47^F

11/09 19:06, 47^F

→

11/09 19:06, 6年前 , 48^F

11/09 19:06, 48^F

→

11/09 19:07, 6年前 , 49^F

11/09 19:07, 49^F

→

11/09 19:07, 6年前 , 50^F

11/09 19:07, 50^F

→

11/09 19:07, 6年前 , 51^F

11/09 19:07, 51^F

→

11/09 19:08, 6年前 , 52^F

11/09 19:08, 52^F

不是程式中有用到圍棋知識，而是用傳統圍棋知識來驗證程式架構是否有效

→

11/09 19:08, 6年前 , 53^F

11/09 19:08, 53^F

推

11/09 19:13, 6年前 , 54^F

11/09 19:13, 54^F

→

11/09 19:13, 6年前 , 55^F

11/09 19:13, 55^F

→

11/09 19:13, 6年前 , 56^F

11/09 19:13, 56^F

→

11/09 19:13, 6年前 , 57^F

11/09 19:13, 57^F

→

11/09 19:14, 6年前 , 58^F

11/09 19:14, 58^F

→

11/09 19:21, 6年前 , 59^F

11/09 19:21, 59^F

輸入data跟輸入人類對圍棋的理解有根本的不同這也是你講半天無法說服大家對Deepmind說法產生懷疑的原因因為你對人類知識的定義跟AI界裡面所說的人類知識也根本是兩回事，雞同鴨講 ※ 編輯: oldTim (36.226.155.40), 11/09/2017 20:05:55

推

11/09 20:28, 6年前 , 60^F

11/09 20:28, 60^F

推

11/09 21:51, 6年前 , 61^F

11/09 21:51, 61^F

→

11/09 21:51, 6年前 , 62^F

11/09 21:51, 62^F

不是我的說法，麻煩你看看文章裡的連結，我是引用台大資工系教授林守德的說法將圍棋知識提煉成規則後，依此規則設計程式是第一波AI(專家系統)的作法而即使是初代AlphaGO也是第二代AI，輸入的人類棋譜只是做為訓練用的Data 由機器學習自行提取出特徵，若依照第一代AI作法是要由人來決定用哪些特徵或是規則

→

11/09 21:56, 6年前 , 63^F

11/09 21:56, 63^F

→

11/09 22:07, 6年前 , 64^F

11/09 22:07, 64^F

→

11/09 22:07, 6年前 , 65^F

11/09 22:07, 65^F

用棋譜訓練跟接受人類觀念還是兩回事，當然不可否認輸入棋譜的版本會受人類招法的引導而可能比較容易出現跟人類圍棋觀念相似的選點，但這些觀念終究是機器學習由data中挖掘出來的，而非人類在演算法中已經預設 ※ 編輯: oldTim (36.226.155.40), 11/09/2017 23:12:39 ※ 編輯: oldTim (36.226.155.40), 11/09/2017 23:23:11

推

11/09 23:22, 6年前 , 66^F

11/09 23:22, 66^F

→

11/09 23:22, 6年前 , 67^F

11/09 23:22, 67^F

→

11/09 23:22, 6年前 , 68^F

11/09 23:22, 68^F

推

11/09 23:27, 6年前 , 69^F

11/09 23:27, 69^F

→

11/09 23:27, 6年前 , 70^F

11/09 23:27, 70^F

→

11/09 23:27, 6年前 , 71^F

11/09 23:27, 71^F

‣ 返回看板[ GO ] 棋類

‣ 更多 oldTim 的文章

文章代碼(AID): #1Q0_POuR (GO)

討論串 (同標題文章)

本文引述了以下文章的的內容：

新聞

35

231

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程 Re: 黃士傑返台分享AlphaGo Zero開發過程

6年前, 11/08

完整討論串 (本文為第 3 之 8 篇)：

排序：最舊先 | 最新先 | 留言數

新聞

[新聞] 黃士傑返台分享AlphaGo Zero開發過程黃士傑返台分享AlphaGo Zero開發過程已刪文

6年前, 11/08

新聞

35

231

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程 Re: 黃士傑返台分享AlphaGo Zero開發過程

6年前, 11/08

新聞

10

71

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程 Re: 黃士傑返台分享AlphaGo Zero開發過程

6年前, 11/09

新聞

30

188

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程 Re: 黃士傑返台分享AlphaGo Zero開發過程

6年前, 11/09

新聞

2

2

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程 Re: 黃士傑返台分享AlphaGo Zero開發過程

6年前, 11/10

新聞

11

57

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程 Re: 黃士傑返台分享AlphaGo Zero開發過程

6年前, 11/11

新聞

20

54

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程 Re: 黃士傑返台分享AlphaGo Zero開發過程

6年前, 11/11

新聞

5

16

Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程 Re: 黃士傑返台分享AlphaGo Zero開發過程

6年前, 11/11

在新視窗開啟完整討論串 (共8篇)

‣ 返回看板[ GO ] 棋類

‣ 更多 oldTim 的文章

文章代碼(AID): #1Q0_POuR (GO)