bacow/easy-rl

Files

T

History

johnjim0816 ed7b60fd5b update

2021-04-28 22:11:22 +08:00

..

update

2021-04-28 22:11:22 +08:00

results/20210313-114904

update

2021-03-23 16:10:11 +08:00

saved_model/20210313-114904

update

2021-03-23 16:10:11 +08:00

agent.py

update

2021-03-28 11:18:52 +08:00

main.py

update

2021-03-28 11:18:52 +08:00

model.py

update

2021-03-28 11:18:52 +08:00

README.md

update

2021-04-28 22:11:22 +08:00

README.md

Policy Gradient

Policy-based方法是强化学习中与Value-based(比如Q-learning)相对的方法，其目的是对策略本身进行梯度下降，相关基础知识参考Datawhale-Policy Gradient。其中REINFORCE是一个最基本的Policy Gradient方法，主要解决策略梯度无法直接计算的问题，具体原理参考CSDN-REINFORCE和Reparameterization Trick

伪代码

结合REINFORCE原理，其伪代码如下：

实现

参考

REINFORCE和Reparameterization Trick

Policy Gradient paper