实现的是Policy Gradient最基本的REINFORCE方法
直接运行main.py即可
main.py
参考我的博客Policy Gradient算法实战
python 3.7.9、pytorch 1.6.0
REINFORCE和Reparameterization Trick
Policy Gradient paper
REINFORCE