From 17df7fe398084cf8c578bf653c714c168b062eec Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Sat, 6 Aug 2022 11:23:12 +0800 Subject: [PATCH 1/3] update errata --- docs/errata.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/docs/errata.md b/docs/errata.md index f6aca05..98a2783 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -7,6 +7,9 @@ * 王琦:中国科学院大学硕士在读 → 中国科学院大学硕士 * 杨毅远:清华大学硕士在读 → 清华大学硕士 * 江季:北京大学硕士在读 → 北京大学硕士 +* 38页,式(2.7)下面一段第1行:$s^{\prime}$ 可以看成未来的所有状态 → $s^{\prime}$ 可以看成未来的某个状态 +* 38页,式(2.7)下面一段第2行:未来某一个状态的价值 → 未来某个状态的价值 +* 55页,第2段的第1行:$p(2 \mid 6, \mathrm{u})=2$ → $p(2 \mid 6, \mathrm{u})=1$ * 134页,式(5.16)下面一段第2行:最大化式 (5.16) → 最大化式 (5.15) * 189页,图9.4替换成下图: From 88b7c4149dfc83057d27c2b1352db344a0f8d8c4 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Mon, 8 Aug 2022 11:53:50 +0800 Subject: [PATCH 2/3] update errata --- docs/errata.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/docs/errata.md b/docs/errata.md index 98a2783..1c9fb98 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -9,6 +9,10 @@ * 江季:北京大学硕士在读 → 北京大学硕士 * 38页,式(2.7)下面一段第1行:$s^{\prime}$ 可以看成未来的所有状态 → $s^{\prime}$ 可以看成未来的某个状态 * 38页,式(2.7)下面一段第2行:未来某一个状态的价值 → 未来某个状态的价值 +* 52页,第二段修改为: + +    举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16(a)的方格中,智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格,则其会在原位置不动,并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外,其他动作的奖励为 0。智能体在 $\mathrm{A}$ 采取任意一个动作,都会移动到 $\mathrm{A}^{\prime}$ ,并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作,都会移动到 $\mathrm{B}^{\prime}$ ,并且得到 +5 的奖励。如图 2.16(b)所示,现在,我们给定一个策略:在任何状态中,智能体的动作模式都是随机的,也就是上、下、左、右的概率均为 0.25。预测问题要做的就是,求出在这种决策模式下的价值函数。图 2.16 (c)是折扣因子为 $\gamma=0.9$ 时对应的价值函数。 + * 55页,第2段的第1行:$p(2 \mid 6, \mathrm{u})=2$ → $p(2 \mid 6, \mathrm{u})=1$ * 134页,式(5.16)下面一段第2行:最大化式 (5.16) → 最大化式 (5.15) * 189页,图9.4替换成下图: From c622752edaefb3bf466dc8514513aa82ae145c24 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Mon, 8 Aug 2022 12:00:35 +0800 Subject: [PATCH 3/3] update errata --- docs/errata.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/errata.md b/docs/errata.md index 1c9fb98..f5625ac 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -11,7 +11,7 @@ * 38页,式(2.7)下面一段第2行:未来某一个状态的价值 → 未来某个状态的价值 * 52页,第二段修改为: -    举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16(a)的方格中,智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格,则其会在原位置不动,并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外,其他动作的奖励为 0。智能体在 $\mathrm{A}$ 采取任意一个动作,都会移动到 $\mathrm{A}^{\prime}$ ,并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作,都会移动到 $\mathrm{B}^{\prime}$ ,并且得到 +5 的奖励。如图 2.16(b)所示,现在,我们给定一个策略:在任何状态中,智能体的动作模式都是随机的,也就是上、下、左、右的概率均为 0.25。预测问题要做的就是,求出在这种决策模式下的价值函数。图 2.16 (c)是折扣因子为 $\gamma=0.9$ 时对应的价值函数。 +    举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16(a)的方格中,智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格,则其会在原位置不动,并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外,其他动作的奖励均为 0。智能体在 $\mathrm{A}$ 采取任意一个动作,都会移动到 $\mathrm{A}^{\prime}$ ,并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作,都会移动到 $\mathrm{B}^{\prime}$ ,并且得到 +5 的奖励。如图 2.16(b)所示,现在,我们给定一个策略:在任何状态中,智能体的动作模式都是随机的,也就是上、下、左、右的概率均为 0.25。预测问题要做的就是,求出在这种决策模式下的价值函数。图 2.16 (c)是折扣因子为 $\gamma=0.9$ 时对应的价值函数。 * 55页,第2段的第1行:$p(2 \mid 6, \mathrm{u})=2$ → $p(2 \mid 6, \mathrm{u})=1$ * 134页,式(5.16)下面一段第2行:最大化式 (5.16) → 最大化式 (5.15)