update ch4

2022-08-18 16:55:19 +08:00
parent e8a2cb5460
commit d6ad96f6c5
1 changed files with 1 additions and 1 deletions
@@ -364,7 +364,7 @@ $$
 <div align=center>图 4.19 损失计算</div>
    

-图 4.20 所示为REINFORCE 算法示意，首先我们需要一个策略模型来输出动作概率，输出动作概率后，通过 **sample()**函数得到一个具体的动作，与环境交互后，我们可以得到整个回合的数据。得到回合数据之后，我们再去执行**learn()**函数，在 **learn()**函数里面，我们就可以用这些数据去构造损失函数，“扔”给优化器优化，更新我们的策略模型。
+图 4.20 所示为REINFORCE 算法示意，首先我们需要一个策略模型来输出动作概率，输出动作概率后，通过 **sample()** 函数得到一个具体的动作，与环境交互后，我们可以得到整个回合的数据。得到回合数据之后，我们再去执行 **learn()** 函数，在 **learn()** 函数里面，我们就可以用这些数据去构造损失函数，“扔”给优化器优化，更新我们的策略模型。

    
 <div align=center>