討論串[研究] DHP?
共 4 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者neumann (€ΝΕμΜΑΝΝ€)時間13年前 (2012/10/31 19:58), 編輯資訊
0
0
0
內容預覽:
事實證明. 那篇論文造假. 害我白忙近兩年的研究時光. 我一年多前早就看出來了. --. 發信站: 批踢踢實業坊(ptt.cc). ◆ From: 140.112.25.205.

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者neumann (€ΝΕμΜΑΝΝ€)時間15年前 (2011/01/04 13:00), 編輯資訊
0
0
0
內容預覽:
昨天想來想去用PSO調DHP也只有調critic這個方法. 不過 shadow critic的目標值還是需要系統模型的微分 @@.... 除非是 HDP .... 不過聽說HDP收斂性很爛.... --. 發信站: 批踢踢實業坊(ptt.cc). ◆ From: 140.112.25.205.

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者YOSHIK1 (a.testoni)時間15年前 (2011/01/04 10:57), 編輯資訊
0
0
0
內容預覽:
我猜老師的意思應該是critic 跟 actor 都保留. 但是調整critic network不用系統模型微分,而是用PSO調. 再用調完的critic調actor. --. 發信站: 批踢踢實業坊(ptt.cc). ◆ From: 114.45.177.24.

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者neumann (€ΝΕμΜΑΝΝ€)時間15年前 (2011/01/04 01:16), 編輯資訊
0
0
0
內容預覽:
今天花了點時間研究 DHP. 研究他的network的weight如何update. 結果就是用back-propagation更新actor的weight 才會用到 critic的訊號(HDP也是). 那這樣我用PSO調weight不就不用critic了!. 那這樣就不是DHP了啊..... 看到
首頁
上一頁
1
下一頁
尾頁