Update Soft Actor-Critic_Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor.md

2022-11-20 23:37:00 +08:00
parent e7b7972acf
commit c88b1281f3
1 changed files with 4 additions and 0 deletions
@@ -158,9 +158,13 @@ soft actor-critic算法用伪代码可表示为：
 虽然SAC算法采用了energy-based模型，但是实际上策略分布仍为高斯分布，存在一定的局限性。
 ====================================
 作者：杨骏铭
 研究单位：南京邮电大学
 研究方向：强化学习、对抗学习
 联系邮箱：jmingyang@outlook.com