From ccada95ce23c3d7085e9dc3c7fced8883a227600 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Sun, 23 Oct 2022 20:45:03 +0800 Subject: [PATCH] update errata --- docs/errata.md | 4 +--- 1 file changed, 1 insertion(+), 3 deletions(-) diff --git a/docs/errata.md b/docs/errata.md index 955ffdb..ad97797 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -34,6 +34,7 @@ ![](res/4-19.png ':size=550') +* 127页,5.1节的标题:从同策略到异策略 → 重要性采样 * 134页,式(5.16)下面一段第2行:最大化式 (5.16) → 最大化式 (5.15) * 165页,第一段的第4行到第5行:归一化的向量为 $[3,-1,2]^{\mathrm{T}}$ → 归一化的向量为 $[3,-1,-2]^{\mathrm{T}}$ * 165页,第二段的第1行:向量 $[3,-1,2]^{\mathrm{T}}$ 中的每个元素 → 向量 $[3,-1,-2]^{\mathrm{T}}$ 中的每个元素 @@ -41,9 +42,6 @@ ![](res/9-4.png ':size=550') - - - ## 第1版第2次印刷(2022.06) * 1页,图1.1删除参考文献:SUTTON R S, BARTO A G. Reinforcement learning: An introduction (second edition)[M]. London: The MIT Press, 2018