From fff6444388cd9051e116e76520e5bd38b5024848 Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Tue, 14 Jun 2022 19:19:38 +0800
Subject: [PATCH] update errata

---
 docs/errata.md | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/docs/errata.md b/docs/errata.md
index 3fa8041..c54003b 100644
--- a/docs/errata.md
+++ b/docs/errata.md
@@ -7,6 +7,10 @@
 
 > 上面这段代码只是示例，其目的是让读者了解强化学习算法代码实现的框架，并非完整代码，`load_agent` 函数并未定义，所以运行这段代码会报错。
 
+* 36页，式(2.4)上面一段第2行和第3行：**回报（return）**是指把奖励进行折扣后所获得的奖励。回报可以定义为奖励的逐步叠加，即 → **回报（return）**可以定义为奖励的逐步叠加，假设时刻$t$后的奖励序列为$r_{t+1},r_{t+2},r_{t+3},\cdots$，则回报为
+
+* 36页，式(2.4)下面一段第1行：这里有一个折扣因子，→ 其中，$T$是最终时刻，$\gamma$ 是折扣因子，
+
 * 151页，第2段的倒数第1行：均方误差（mean square error）→ 均方误差（mean square error，MSE）
 * 201页，第3段的倒数第2行：均方误差（mean squared error，MSE）→ 均方误差
 * 241页，第1段的第3行和第4行：均方误差（mean square error，MSE）→ 均方误差