作者查詢 / aoeu

總覽項目: 發文 | 留言 | 暱稱
作者 aoeu 在 PTT [ GO ] 看板的留言(推文), 共21則
限定看板:GO
首頁
上一頁
1
下一頁
尾頁
[新聞] 中國版人機大戰緣何沉寂?劉:缺乏專業人才
[ GO ]466 留言, 推噓總分: +39
作者: zkow - 發表於 2016/11/25 21:50(9年前)
387Faoeu: The RL policy network p is identical in structure to the11/28 02:26
388Faoeu: SL and its weights p are initialized to the same values.11/28 02:26
389Faoeu: 中譯: RL 的走子網路的 (類神經網路) 結構和 SL 用的結構相11/28 02:27
390Faoeu: 同。RL 訓練的網路起始參數初始化為 SL 訓練結果的參數。11/28 02:29
391Faoeu: RL 和 SL 是不同的訓練方式。AlphaGo 的目標之一是用 CNN 做11/28 02:30
392Faoeu: 為走棋的 model, 而 deep CNN 有兩個重要的變因:神經元的連11/28 02:31
393Faoeu: 結方式和每個連結的權重 (weights)。11/28 02:32
394Faoeu: 這句話的意思是在連結方式上,SL 和 RL 這兩個階段訓練用的11/28 02:32
395Faoeu: 是相同的結構。而權重的部份,SL 和 RL 都需要一組初始值。11/28 02:33
396Faoeu: 不同的初始值會影響 model 收斂的速度。最簡單的方式是亂數11/28 02:34
397Faoeu: ,但 AlphaGo 用 SL 訓練好的權重當作 RL 的初始值,可以加11/28 02:35
398Faoeu: 快收斂,也可能讓結果更好。另外 AlphaGo 的 SL 訓練方式是11/28 02:36
399Faoeu: 用 KGS 還是哪個 server (忘了) 的高端棋譜,而不是真的有一11/28 02:36
400Faoeu: 個人在旁邊修正。SL 用的都是之前的技術,雖然無法打敗一流11/28 02:38
401Faoeu: 棋手但也算是一個有一定程度的 model, 用來當作 RL 的初始11/28 02:38
402Faoeu: 的 model 可以想成省去用 RL 從初心者開始訓練的漫長過程。11/28 02:40
403Faoeu: DeepMind 之前也有說他們想嘗試拿掉 SL 純以 RL 來訓練。11/28 02:41
404Faoeu: AlphaGo 的核心價值就是 DNN + RL。這兩者的 "概念" 都是以11/28 02:44
405Faoeu: 前就有,但把兩者結合起來並發展出一套適合用在圍棋上的11/28 02:44
406Faoeu: model 是相當有難度的,也是 AlphaGo 創新的地方。11/28 02:45
[討論] 每週一題 2016/5/29?
[ GO ]14 留言, 推噓總分: +7
作者: tonypure - 發表於 2016/06/03 04:55(9年前)
11Faoeu: T18?06/04 04:06
首頁
上一頁
1
下一頁
尾頁