update errata
This commit is contained in:
@@ -1,13 +1,50 @@
|
||||
# 纸质版勘误修订表
|
||||
|
||||
**如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。**
|
||||
## 第1版第8次印刷(2023.11)
|
||||
|
||||
前勒口作者简介:
|
||||
|
||||
* 王琦:
|
||||
* 主要研究方向为深度学习、数据挖掘 → 主要研究方向为强化学习、计算机视觉
|
||||
* 36页,式(2.4) 改为:
|
||||
|
||||
$$
|
||||
G_t=r_{t+1}+r_{t+2}+ r_{t+3}+ r_{t+4}+\cdots+ r_T \tag{2.4}
|
||||
$$
|
||||
|
||||
* 36页,式(2.4) 以下部分改为:其中,$T$ 是最终时刻。对于持续性任务(比如长期运行的机器人),$T=\infty$。如果使用式 (2.4) 的定义,当每个时刻获得的都是正奖励时,回报会趋于无穷。因此,我们需要引入**折扣回报(discounted return)**:
|
||||
|
||||
$$
|
||||
G_t=r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+\gamma^3 r_{t+4}+\cdots \tag{2.5}
|
||||
$$
|
||||
其中,$\gamma$ 是折扣因子,越往后得到的奖励,折扣越多。这说明我们更希望得到现有的奖励,对未来的奖励要打折扣。当我们有了回报之后,就可以定义状态的价值了,就是**状态价值函数(state-value function)**。对于马尔可夫奖励过程,状态价值函数被定义成回报的期望,即
|
||||
$$
|
||||
\begin{aligned}
|
||||
V^t(s) & =\mathbb{E}\left[G_t \mid s_t=s\right] \\
|
||||
& =\mathbb{E}\left[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+\cdots \mid s_t=s\right]
|
||||
\end{aligned}
|
||||
\tag{2.6}
|
||||
$$
|
||||
|
||||
其中,$G_t$ 是之前定义的折扣回报。我们对 $G_t$ 取了一个期望,期望就是从当前状态开始,可能获得多大的价值。因此期望也可以看成未来可能获得奖励的当前价值表现,即当我们进入某一个状态后,现在有多大的价值。
|
||||
|
||||
## 第1版第7次印刷(2023.10)
|
||||
|
||||
* 36页,第三段改为:其中,$T$ 是最终时刻,$\gamma$ 是折扣因子,越往后得到的奖励,折扣越多。这说明我们更希望得到现有的奖励,对未来的奖励要打折扣。但式 (2.4) 定义有些问题,当任务为持续性任务时,$T=\infty$,如果智能体每个时刻都收到正的奖励,回报也就会趋于无穷。当我们有了回报之后,就可以定义状态的价值了,就是状态价值函数(state-value function)。对于马尔可夫奖励过程,状态价值函数被定义成回报的期望,即
|
||||
|
||||
* 147页,图6.7左下角:动作值 → 动作价值,图6.7替换成下图:
|
||||
|
||||

|
||||
|
||||
* 217页,倒数第一段:
|
||||
* 黄金状态(gold state) → 目标状态(goal state)
|
||||
* 黄金状态 → 目标状态
|
||||
* 218页,第一段:黄金状态 → 目标状态
|
||||
* 218页,倒数第一段:黄金状态 → 目标状态
|
||||
* 221页,倒数第一段:我们称之为黄金状态(gold state)→ 目标状态(goal state)
|
||||
* 222页,第一段:黄金状态 → 目标状态
|
||||
|
||||
## 第1版第6次印刷(2023.06)
|
||||
|
||||
* 前勒口作者简介:
|
||||
|
||||
Reference in New Issue
Block a user