From c622752edaefb3bf466dc8514513aa82ae145c24 Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Mon, 8 Aug 2022 12:00:35 +0800
Subject: [PATCH] update errata

---
 docs/errata.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/errata.md b/docs/errata.md
index 1c9fb98..f5625ac 100644
--- a/docs/errata.md
+++ b/docs/errata.md
@@ -11,7 +11,7 @@
 * 38页，式(2.7)下面一段第2行：未来某一个状态的价值 → 未来某个状态的价值 
 * 52页，第二段修改为：
 
-&ensp;&ensp;&ensp;&ensp;举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16（a）的方格中，智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格，则其会在原位置不动，并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外，其他动作的奖励为 0。智能体在 $\mathrm{A}$ 采取任意一个动作，都会移动到 $\mathrm{A}^{\prime}$ ，并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作，都会移动到 $\mathrm{B}^{\prime}$ ，并且得到 +5 的奖励。如图 2.16（b）所示，现在，我们给定一个策略：在任何状态中，智能体的动作模式都是随机的，也就是上、下、左、右的概率均为 0.25。预测问题要做的就是，求出在这种决策模式下的价值函数。图 2.16 （c）是折扣因子为 $\gamma=0.9$ 时对应的价值函数。
+&ensp;&ensp;&ensp;&ensp;举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16（a）的方格中，智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格，则其会在原位置不动，并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外，其他动作的奖励均为 0。智能体在 $\mathrm{A}$ 采取任意一个动作，都会移动到 $\mathrm{A}^{\prime}$ ，并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作，都会移动到 $\mathrm{B}^{\prime}$ ，并且得到 +5 的奖励。如图 2.16（b）所示，现在，我们给定一个策略：在任何状态中，智能体的动作模式都是随机的，也就是上、下、左、右的概率均为 0.25。预测问题要做的就是，求出在这种决策模式下的价值函数。图 2.16 （c）是折扣因子为 $\gamma=0.9$ 时对应的价值函数。
 
 * 55页，第2段的第1行：$p(2 \mid 6, \mathrm{u})=2$ → $p(2 \mid 6, \mathrm{u})=1$ 
 * 134页，式(5.16)下面一段第2行：最大化式 (5.16) → 最大化式 (5.15)