Re: [研究] DHP?
我猜老師的意思應該是critic 跟 actor 都保留
但是調整critic network不用系統模型微分,而是用PSO調
再用調完的critic調actor
※ 引述《neumann (€ΝΕμΜΑΝΝ€)》之銘言:
: 今天花了點時間研究 DHP
: 研究他的network的weight如何update
: 結果就是用back-propagation更新actor的weight 才會用到 critic的訊號(HDP也是)
: 那這樣我用PSO調weight不就不用critic了!
: 那這樣就不是DHP了啊....
: 看到一篇426的IEEE會議論文寫用PSO調HDP
: 結果方法完全沒提! 數據也很少
: 看來真的是 426不意外!!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.45.177.24
討論串 (同標題文章)