From d6ad96f6c573480553eb7172987dbbade3fea67c Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Thu, 18 Aug 2022 16:55:19 +0800 Subject: [PATCH] update ch4 --- docs/chapter4/chapter4.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter4/chapter4.md b/docs/chapter4/chapter4.md index f514eec..4fd6d60 100644 --- a/docs/chapter4/chapter4.md +++ b/docs/chapter4/chapter4.md @@ -364,7 +364,7 @@ $$
图 4.19 损失计算
-图 4.20 所示为REINFORCE 算法示意,首先我们需要一个策略模型来输出动作概率,输出动作概率后,通过 **sample()**函数得到一个具体的动作,与环境交互后,我们可以得到整个回合的数据。得到回合数据之后,我们再去执行**learn()**函数,在 **learn()**函数里面,我们就可以用这些数据去构造损失函数,“扔”给优化器优化,更新我们的策略模型。 +图 4.20 所示为REINFORCE 算法示意,首先我们需要一个策略模型来输出动作概率,输出动作概率后,通过 **sample()** 函数得到一个具体的动作,与环境交互后,我们可以得到整个回合的数据。得到回合数据之后,我们再去执行 **learn()** 函数,在 **learn()** 函数里面,我们就可以用这些数据去构造损失函数,“扔”给优化器优化,更新我们的策略模型。