作者查詢 / aoeu
作者 aoeu 的總覽 (PTT發文,留言,暱稱)
發文數量: 59
收到的『推』: 231 (37.7%)
收到的『→』: 382 (62.3%)
收到的『噓』: 0 (0.0%)
留言數量: 2407
送出的『推』: 385 (16.0%)
送出的『→』: 2015 (83.7%)
送出的『噓』: 7 (0.3%)
使用過的暱稱: 1
aoeu 在 PTT 最新的發文, 共 59 篇
aoeu 在 PTT 最新的留言, 共 2407 則
135F→: 呃... 好幾句其實都翻錯了 囧12/08 13:52
387F推: The RL policy network p is identical in structure to the11/28 02:26
388F→: SL and its weights p are initialized to the same values.11/28 02:26
389F→: 中譯: RL 的走子網路的 (類神經網路) 結構和 SL 用的結構相11/28 02:27
390F→: 同。RL 訓練的網路起始參數初始化為 SL 訓練結果的參數。11/28 02:29
391F→: RL 和 SL 是不同的訓練方式。AlphaGo 的目標之一是用 CNN 做11/28 02:30
392F→: 為走棋的 model, 而 deep CNN 有兩個重要的變因:神經元的連11/28 02:31
393F→: 結方式和每個連結的權重 (weights)。11/28 02:32
394F→: 這句話的意思是在連結方式上,SL 和 RL 這兩個階段訓練用的11/28 02:32
395F→: 是相同的結構。而權重的部份,SL 和 RL 都需要一組初始值。11/28 02:33
396F→: 不同的初始值會影響 model 收斂的速度。最簡單的方式是亂數11/28 02:34
397F→: ,但 AlphaGo 用 SL 訓練好的權重當作 RL 的初始值,可以加11/28 02:35
398F→: 快收斂,也可能讓結果更好。另外 AlphaGo 的 SL 訓練方式是11/28 02:36
399F→: 用 KGS 還是哪個 server (忘了) 的高端棋譜,而不是真的有一11/28 02:36
400F→: 個人在旁邊修正。SL 用的都是之前的技術,雖然無法打敗一流11/28 02:38
401F→: 棋手但也算是一個有一定程度的 model, 用來當作 RL 的初始11/28 02:38
402F→: 的 model 可以想成省去用 RL 從初心者開始訓練的漫長過程。11/28 02:40
403F→: DeepMind 之前也有說他們想嘗試拿掉 SL 純以 RL 來訓練。11/28 02:41
404F→: AlphaGo 的核心價值就是 DNN + RL。這兩者的 "概念" 都是以11/28 02:44
405F→: 前就有,但把兩者結合起來並發展出一套適合用在圍棋上的11/28 02:44
406F→: model 是相當有難度的,也是 AlphaGo 創新的地方。11/28 02:45
13F→: 英文台一開場有說10/03 11:07
1F推: 原 po 的房子是好房子 ////06/08 05:54
11F→: T18?06/04 04:06
aoeu 在 PTT 的暱稱紀錄, 共 1 個
暱稱:青江羽
文章數量:59