diff --git a/docs/errata.md b/docs/errata.md index 35239c0..af36cc1 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -31,10 +31,26 @@ pip install gym==0.25.2     举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16(a)的方格中,智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格,则其会在原位置不动,并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外,其他动作的奖励均为 0。智能体在 $\mathrm{A}$ 采取任意一个动作,都会移动到 $\mathrm{A}^{\prime}$ ,并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作,都会移动到 $\mathrm{B}^{\prime}$ ,并且得到 +5 的奖励。如图 2.16(b)所示,现在,我们给定一个策略:在任何状态中,智能体的动作模式都是随机的,也就是上、下、左、右的概率均为 0.25。预测问题要做的就是,求出在这种决策模式下的价值函数。图 2.16 (c)是折扣因子为 $\gamma=0.9$ 时对应的价值函数。 * 55页,第2段的第1行:$p(2 \mid 6, \mathrm{u})=2$ → $p(2 \mid 6, \mathrm{u})=1$ + * 96页,删除图3.33上面一段文字:事实上,Q 学习算法被提出的时间更早,Sarsa 算法是 Q 学习算法的改进。 + * 96页,删除图3.33上面一段文字的参考文献:邱锡鹏. 神经网络与深度学习 [M]. 北京:机械工业出版社, 2020. + * 105页,删除参考文献:[5] 邱锡鹏. 神经网络与深度学习 [M]. 北京:机械工业出版社, 2020. +* 116页,图4.10替换成下图: + + ![](res/4-10.png ':size=550') + +* 116页,图4.10的标题替换为:理想情况下动作概率的变化 + +* 116页,图4.10下面一段的第5行:我们可能只采样到动作b或者只采样到动作c → 我们可能只采样到动作b和动作c + +* 116页,图4.11替换成下图: + +![](res/4-11.png ':size=550') + +* 116页,图4.11的标题替换为:实际情况下动作概率的变化 * 121页,图4.14上面一段的第4行:每个动作计算梯度 $\nabla \ln \pi\left(a_{t} \mid s_{t}, \theta\right)$ → 每个动作计算梯度 $\nabla \log \pi\left(a_{t} \mid s_{t}, \theta\right)$ * 121页,图4.14上面一段的倒数第1行:$\nabla \ln \pi\left(a_{t} \mid s_{t}, \theta\right)$ → $\nabla \log \pi\left(a_{t} \mid s_{t}, \theta\right)$ * 121页,图4.14替换成下图: diff --git a/docs/res/4-10.png b/docs/res/4-10.png new file mode 100644 index 0000000..0e72d77 Binary files /dev/null and b/docs/res/4-10.png differ diff --git a/docs/res/4-11.png b/docs/res/4-11.png new file mode 100644 index 0000000..714cbd4 Binary files /dev/null and b/docs/res/4-11.png differ