作者查詢 / aoeu
作者 aoeu 在 PTT 全部看板的留言(推文), 共2407則
限定看板:全部
看板排序:
135F→: 呃... 好幾句其實都翻錯了 囧12/08 13:52
387F推: The RL policy network p is identical in structure to the11/28 02:26
388F→: SL and its weights p are initialized to the same values.11/28 02:26
389F→: 中譯: RL 的走子網路的 (類神經網路) 結構和 SL 用的結構相11/28 02:27
390F→: 同。RL 訓練的網路起始參數初始化為 SL 訓練結果的參數。11/28 02:29
391F→: RL 和 SL 是不同的訓練方式。AlphaGo 的目標之一是用 CNN 做11/28 02:30
392F→: 為走棋的 model, 而 deep CNN 有兩個重要的變因:神經元的連11/28 02:31
393F→: 結方式和每個連結的權重 (weights)。11/28 02:32
394F→: 這句話的意思是在連結方式上,SL 和 RL 這兩個階段訓練用的11/28 02:32
395F→: 是相同的結構。而權重的部份,SL 和 RL 都需要一組初始值。11/28 02:33
396F→: 不同的初始值會影響 model 收斂的速度。最簡單的方式是亂數11/28 02:34
397F→: ,但 AlphaGo 用 SL 訓練好的權重當作 RL 的初始值,可以加11/28 02:35
398F→: 快收斂,也可能讓結果更好。另外 AlphaGo 的 SL 訓練方式是11/28 02:36
399F→: 用 KGS 還是哪個 server (忘了) 的高端棋譜,而不是真的有一11/28 02:36
400F→: 個人在旁邊修正。SL 用的都是之前的技術,雖然無法打敗一流11/28 02:38
401F→: 棋手但也算是一個有一定程度的 model, 用來當作 RL 的初始11/28 02:38
402F→: 的 model 可以想成省去用 RL 從初心者開始訓練的漫長過程。11/28 02:40
403F→: DeepMind 之前也有說他們想嘗試拿掉 SL 純以 RL 來訓練。11/28 02:41
404F→: AlphaGo 的核心價值就是 DNN + RL。這兩者的 "概念" 都是以11/28 02:44
405F→: 前就有,但把兩者結合起來並發展出一套適合用在圍棋上的11/28 02:44
406F→: model 是相當有難度的,也是 AlphaGo 創新的地方。11/28 02:45
13F→: 英文台一開場有說10/03 11:07
1F推: 原 po 的房子是好房子 ////06/08 05:54
11F→: T18?06/04 04:06
59F推: 看到一半忽然想到 她有沒有把 find my phone 關掉 XD04/30 11:10
90F→: 巴掌那個回答 應該是說 呃...可能言語上有吧02/25 07:30
33F→: way past midnight 應該是指已經過午夜很久了02/10 09:36
32F→: 紅藍水以前不能疊著喝02/03 15:40
35F推: S2 上路有名的鬥獸棋 http://i.imgur.com/NHEWP.jpg02/03 13:58