udpate errata

This commit is contained in:
qiwang067
2022-08-19 16:08:38 +08:00
parent b3608fc01e
commit 0c44b6c23c
3 changed files with 11 additions and 0 deletions

View File

@@ -14,6 +14,17 @@
    举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16a的方格中智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格则其会在原位置不动并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外,其他动作的奖励均为 0。智能体在 $\mathrm{A}$ 采取任意一个动作,都会移动到 $\mathrm{A}^{\prime}$ ,并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作,都会移动到 $\mathrm{B}^{\prime}$ ,并且得到 +5 的奖励。如图 2.16b所示现在我们给定一个策略在任何状态中智能体的动作模式都是随机的也就是上、下、左、右的概率均为 0.25。预测问题要做的就是,求出在这种决策模式下的价值函数。图 2.16 c是折扣因子为 $\gamma=0.9$ 时对应的价值函数。
* 55页第2段的第1行$p(2 \mid 6, \mathrm{u})=2$ → $p(2 \mid 6, \mathrm{u})=1$
* 121页图4.14上面一段的第4行每个动作计算梯度 $\nabla \ln \pi\left(a_{t} \mid s_{t}, \theta\right)$ → 每个动作计算梯度 $\nabla \log \pi\left(a_{t} \mid s_{t}, \theta\right)$
* 121页图4.14上面一段的倒数第1行$\nabla \ln \pi\left(a_{t} \mid s_{t}, \theta\right)$ → $\nabla \log \pi\left(a_{t} \mid s_{t}, \theta\right)$
* 121页图4.14替换成下图:
![](res/4-14.png ':size=550')
* 123页倒数第2段的第2行$\ln \pi\left(a_{t} \mid s_{t}, \theta\right)$ → $\log \pi\left(a_{t} \mid s_{t}, \theta\right)$
* 124页图4.19替换成下图:
![](res/4-19.png ':size=550')
* 134页式(5.16)下面一段第2行最大化式 (5.16) → 最大化式 (5.15)
* 189页图9.4替换成下图: