[研究] DHP?
今天花了點時間研究 DHP
研究他的network的weight如何update
結果就是用back-propagation更新actor的weight 才會用到 critic的訊號(HDP也是)
那這樣我用PSO調weight不就不用critic了!
那這樣就不是DHP了啊....
看到一篇426的IEEE會議論文寫用PSO調HDP
結果方法完全沒提! 數據也很少
看來真的是 426不意外!!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.25.205
討論串 (同標題文章)
以下文章回應了本文 (最舊先):
完整討論串 (本文為第 1 之 4 篇):