Update Soft Actor-Critic_Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor.md
This commit is contained in:
@@ -158,9 +158,13 @@ soft actor-critic算法用伪代码可表示为:
|
|||||||
虽然SAC算法采用了energy-based模型,但是实际上策略分布仍为高斯分布,存在一定的局限性。
|
虽然SAC算法采用了energy-based模型,但是实际上策略分布仍为高斯分布,存在一定的局限性。
|
||||||
|
|
||||||
====================================
|
====================================
|
||||||
|
|
||||||
作者:杨骏铭
|
作者:杨骏铭
|
||||||
|
|
||||||
研究单位:南京邮电大学
|
研究单位:南京邮电大学
|
||||||
|
|
||||||
研究方向:强化学习、对抗学习
|
研究方向:强化学习、对抗学习
|
||||||
|
|
||||||
联系邮箱:jmingyang@outlook.com
|
联系邮箱:jmingyang@outlook.com
|
||||||
|
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user