Policy Gradient
Policy-based方法是强化学习中与Value-based(比如Q-learning)相对的方法,其目的是对策略本身进行梯度下降,相关基础知识参考Datawhale-Policy Gradient。 其中REINFORCE是一个最基本的Policy Gradient方法,主要解决策略梯度无法直接计算的问题,具体原理参考CSDN-REINFORCE和Reparameterization Trick
伪代码
结合REINFORCE原理,其伪代码如下:
Policy-based方法是强化学习中与Value-based(比如Q-learning)相对的方法,其目的是对策略本身进行梯度下降,相关基础知识参考Datawhale-Policy Gradient。 其中REINFORCE是一个最基本的Policy Gradient方法,主要解决策略梯度无法直接计算的问题,具体原理参考CSDN-REINFORCE和Reparameterization Trick
结合REINFORCE原理,其伪代码如下: