bacow/easy-rl

Files

T

History

JohnJim0816 6e4d966e1f update

2021-03-28 11:18:52 +08:00

..

results/20210313-114904

update

2021-03-23 16:10:11 +08:00

saved_model/20210313-114904

update

2021-03-23 16:10:11 +08:00

agent.py

update

2021-03-28 11:18:52 +08:00

main.py

update

2021-03-28 11:18:52 +08:00

model.py

update

2021-03-28 11:18:52 +08:00

README.md

update

2021-03-23 16:10:11 +08:00

README.md

Policy Gradient

实现的是Policy Gradient最基本的REINFORCE方法

使用说明

直接运行main.py即可

原理讲解

参考我的博客Policy Gradient算法实战

环境

python 3.7.9、pytorch 1.6.0

程序运行方法

参考

REINFORCE和Reparameterization Trick

Policy Gradient paper