From fff6444388cd9051e116e76520e5bd38b5024848 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Tue, 14 Jun 2022 19:19:38 +0800 Subject: [PATCH] update errata --- docs/errata.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/docs/errata.md b/docs/errata.md index 3fa8041..c54003b 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -7,6 +7,10 @@ > 上面这段代码只是示例,其目的是让读者了解强化学习算法代码实现的框架,并非完整代码,`load_agent` 函数并未定义,所以运行这段代码会报错。 +* 36页,式(2.4)上面一段第2行和第3行:**回报(return)**是指把奖励进行折扣后所获得的奖励。回报可以定义为奖励的逐步叠加,即 → **回报(return)**可以定义为奖励的逐步叠加,假设时刻$t$后的奖励序列为$r_{t+1},r_{t+2},r_{t+3},\cdots$,则回报为 + +* 36页,式(2.4)下面一段第1行:这里有一个折扣因子,→ 其中,$T$是最终时刻,$\gamma$ 是折扣因子, + * 151页,第2段的倒数第1行:均方误差(mean square error)→ 均方误差(mean square error,MSE) * 201页,第3段的倒数第2行:均方误差(mean squared error,MSE)→ 均方误差 * 241页,第1段的第3行和第4行:均方误差(mean square error,MSE)→ 均方误差