update errata

This commit is contained in:
qiwang067
2023-11-24 16:00:46 +08:00
parent d86741fbbd
commit c325345f81

View File

@@ -1,13 +1,50 @@
# 纸质版勘误修订表
**如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。**
## 第1版第8次印刷2023.11
前勒口作者简介:
* 王琦:
* 主要研究方向为深度学习、数据挖掘 → 主要研究方向为强化学习、计算机视觉
* 36页式(2.4) 改为:
$$
G_t=r_{t+1}+r_{t+2}+ r_{t+3}+ r_{t+4}+\cdots+ r_T \tag{2.4}
$$
* 36页式(2.4) 以下部分改为:其中,$T$ 是最终时刻。对于持续性任务(比如长期运行的机器人),$T=\infty$。如果使用式 (2.4) 的定义,当每个时刻获得的都是正奖励时,回报会趋于无穷。因此,我们需要引入**折扣回报discounted return**
$$
G_t=r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+\gamma^3 r_{t+4}+\cdots \tag{2.5}
$$
其中,$\gamma$ 是折扣因子,越往后得到的奖励,折扣越多。这说明我们更希望得到现有的奖励,对未来的奖励要打折扣。当我们有了回报之后,就可以定义状态的价值了,就是**状态价值函数state-value function**。对于马尔可夫奖励过程,状态价值函数被定义成回报的期望,即
$$
\begin{aligned}
V^t(s) & =\mathbb{E}\left[G_t \mid s_t=s\right] \\
& =\mathbb{E}\left[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+\cdots \mid s_t=s\right]
\end{aligned}
\tag{2.6}
$$
其中,$G_t$ 是之前定义的折扣回报。我们对 $G_t$ 取了一个期望,期望就是从当前状态开始,可能获得多大的价值。因此期望也可以看成未来可能获得奖励的当前价值表现,即当我们进入某一个状态后,现在有多大的价值。
## 第1版第7次印刷2023.10
* 36页第三段改为其中$T$ 是最终时刻,$\gamma$ 是折扣因子,越往后得到的奖励,折扣越多。这说明我们更希望得到现有的奖励,对未来的奖励要打折扣。但式 (2.4) 定义有些问题,当任务为持续性任务时,$T=\infty$如果智能体每个时刻都收到正的奖励回报也就会趋于无穷。当我们有了回报之后就可以定义状态的价值了就是状态价值函数state-value function。对于马尔可夫奖励过程状态价值函数被定义成回报的期望
* 147页图6.7左下角:动作值 → 动作价值图6.7替换成下图:
![](res/6-7.png ':size=650')
* 217页倒数第一段
* 黄金状态gold state → 目标状态goal state
* 黄金状态 → 目标状态
* 218页第一段黄金状态 → 目标状态
* 218页倒数第一段黄金状态 → 目标状态
* 221页倒数第一段我们称之为黄金状态gold state→ 目标状态goal state
* 222页第一段黄金状态 → 目标状态
## 第1版第6次印刷2023.06
* 前勒口作者简介: