update errata

2022-08-21 20:21:18 +08:00
parent dcbf785d16
commit 7276404a03
1 changed files with 4 additions and 0 deletions
@@ -14,6 +14,10 @@
 &ensp;&ensp;&ensp;&ensp;举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16（a）的方格中，智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格，则其会在原位置不动，并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外，其他动作的奖励均为 0。智能体在 $\mathrm{A}$ 采取任意一个动作，都会移动到 $\mathrm{A}^{\prime}$ ，并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作，都会移动到 $\mathrm{B}^{\prime}$ ，并且得到 +5 的奖励。如图 2.16（b）所示，现在，我们给定一个策略：在任何状态中，智能体的动作模式都是随机的，也就是上、下、左、右的概率均为 0.25。预测问题要做的就是，求出在这种决策模式下的价值函数。图 2.16 （c）是折扣因子为 $\gamma=0.9$ 时对应的价值函数。
 * 55页，第2段的第1行：$p(2 \mid 6, \mathrm{u})=2$ → $p(2 \mid 6, \mathrm{u})=1$ 
 * 96页，删除图3.33上面一段文字：事实上，Q 学习算法被提出的时间更早，Sarsa 算法是 Q 学习算法的改进。
 * 96页，删除图3.33上面一段文字的参考文献：邱锡鹏. 神经网络与深度学习 [M]. 北京：机械工业出版社, 2020.
 * 105页，删除参考文献：[5] 邱锡鹏. 神经网络与深度学习 [M]. 北京：机械工业出版社, 2020.
 * 121页，图4.14上面一段的第4行：每个动作计算梯度 $\nabla \ln \pi\left(a_{t} \mid s_{t}, \theta\right)$  → 每个动作计算梯度 $\nabla \log \pi\left(a_{t} \mid s_{t}, \theta\right)$ 
 * 121页，图4.14上面一段的倒数第1行：$\nabla \ln \pi\left(a_{t} \mid s_{t}, \theta\right)$ → $\nabla \log \pi\left(a_{t} \mid s_{t}, \theta\right)$ 
 * 121页，图4.14替换成下图：