From c325345f81fc1a73835a5d0de4f21020ad4c38d9 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Fri, 24 Nov 2023 16:00:46 +0800 Subject: [PATCH] update errata --- docs/errata.md | 37 +++++++++++++++++++++++++++++++++++++ 1 file changed, 37 insertions(+) diff --git a/docs/errata.md b/docs/errata.md index 99da888..09eb530 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -1,13 +1,50 @@ # 纸质版勘误修订表 **如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。** +## 第1版第8次印刷(2023.11) + +前勒口作者简介: + +* 王琦: + * 主要研究方向为深度学习、数据挖掘 → 主要研究方向为强化学习、计算机视觉 +* 36页,式(2.4) 改为: + +$$ +G_t=r_{t+1}+r_{t+2}+ r_{t+3}+ r_{t+4}+\cdots+ r_T \tag{2.4} +$$ + +* 36页,式(2.4) 以下部分改为:其中,$T$ 是最终时刻。对于持续性任务(比如长期运行的机器人),$T=\infty$。如果使用式 (2.4) 的定义,当每个时刻获得的都是正奖励时,回报会趋于无穷。因此,我们需要引入**折扣回报(discounted return)**: + +$$ +G_t=r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+\gamma^3 r_{t+4}+\cdots \tag{2.5} +$$ +其中,$\gamma$ 是折扣因子,越往后得到的奖励,折扣越多。这说明我们更希望得到现有的奖励,对未来的奖励要打折扣。当我们有了回报之后,就可以定义状态的价值了,就是**状态价值函数(state-value function)**。对于马尔可夫奖励过程,状态价值函数被定义成回报的期望,即 +$$ +\begin{aligned} +V^t(s) & =\mathbb{E}\left[G_t \mid s_t=s\right] \\ +& =\mathbb{E}\left[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+\cdots \mid s_t=s\right] +\end{aligned} +\tag{2.6} +$$ + +其中,$G_t$ 是之前定义的折扣回报。我们对 $G_t$ 取了一个期望,期望就是从当前状态开始,可能获得多大的价值。因此期望也可以看成未来可能获得奖励的当前价值表现,即当我们进入某一个状态后,现在有多大的价值。 ## 第1版第7次印刷(2023.10) +* 36页,第三段改为:其中,$T$ 是最终时刻,$\gamma$ 是折扣因子,越往后得到的奖励,折扣越多。这说明我们更希望得到现有的奖励,对未来的奖励要打折扣。但式 (2.4) 定义有些问题,当任务为持续性任务时,$T=\infty$,如果智能体每个时刻都收到正的奖励,回报也就会趋于无穷。当我们有了回报之后,就可以定义状态的价值了,就是状态价值函数(state-value function)。对于马尔可夫奖励过程,状态价值函数被定义成回报的期望,即 + * 147页,图6.7左下角:动作值 → 动作价值,图6.7替换成下图: ![](res/6-7.png ':size=650') +* 217页,倒数第一段: + * 黄金状态(gold state) → 目标状态(goal state) + * 黄金状态 → 目标状态 +* 218页,第一段:黄金状态 → 目标状态 +* 218页,倒数第一段:黄金状态 → 目标状态 +* 221页,倒数第一段:我们称之为黄金状态(gold state)→ 目标状态(goal state) +* 222页,第一段:黄金状态 → 目标状态 + ## 第1版第6次印刷(2023.06) * 前勒口作者简介: