update ch4
This commit is contained in:
@@ -364,7 +364,7 @@ $$
|
||||
<div align=center>图 4.19 损失计算</div>
|
||||
|
||||
|
||||
图 4.20 所示为REINFORCE 算法示意,首先我们需要一个策略模型来输出动作概率,输出动作概率后,通过 **sample()**函数得到一个具体的动作,与环境交互后,我们可以得到整个回合的数据。得到回合数据之后,我们再去执行**learn()**函数,在 **learn()**函数里面,我们就可以用这些数据去构造损失函数,“扔”给优化器优化,更新我们的策略模型。
|
||||
图 4.20 所示为REINFORCE 算法示意,首先我们需要一个策略模型来输出动作概率,输出动作概率后,通过 **sample()** 函数得到一个具体的动作,与环境交互后,我们可以得到整个回合的数据。得到回合数据之后,我们再去执行 **learn()** 函数,在 **learn()** 函数里面,我们就可以用这些数据去构造损失函数,“扔”给优化器优化,更新我们的策略模型。
|
||||
|
||||
|
||||
<div align=center>
|
||||
|
||||
Reference in New Issue
Block a user