diff --git a/docs/errata.md b/docs/errata.md index 09eb530..1c41ec0 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -3,10 +3,16 @@ **如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。** ## 第1版第8次印刷(2023.11) -前勒口作者简介: +* 主要符号表在 $r$ 后面添加 4 行: + * $\mathcal{S}$ 所有非终止状态的集合 + * $\mathcal{S}^{+}$ 所有状态的集合 + * $\mathcal{A}(s)$ 在状态 $s$ 可执行动作的集合 + * $\mathcal{R}$ 所有可能奖励的集合 +* 前勒口作者简介: + * 王琦: + * 主要研究方向为深度学习、数据挖掘 → 主要研究方向为强化学习、计算机视觉 + -* 王琦: - * 主要研究方向为深度学习、数据挖掘 → 主要研究方向为强化学习、计算机视觉 * 36页,式(2.4) 改为: $$ @@ -29,6 +35,15 @@ $$ 其中,$G_t$ 是之前定义的折扣回报。我们对 $G_t$ 取了一个期望,期望就是从当前状态开始,可能获得多大的价值。因此期望也可以看成未来可能获得奖励的当前价值表现,即当我们进入某一个状态后,现在有多大的价值。 +* 96页, + + * 图3.33(a)、图3.33(b)的第2行: + * $s \in S^{+}, a \in A(s)$ → $s \in \mathcal{S}^{+}, a \in \mathcal{A}(s)$ + * 终点 → 终止状态 + * 图3.33(a)、图3.33(b)的第7行:观测 → 得到 + + + ## 第1版第7次印刷(2023.10) * 36页,第三段改为:其中,$T$ 是最终时刻,$\gamma$ 是折扣因子,越往后得到的奖励,折扣越多。这说明我们更希望得到现有的奖励,对未来的奖励要打折扣。但式 (2.4) 定义有些问题,当任务为持续性任务时,$T=\infty$,如果智能体每个时刻都收到正的奖励,回报也就会趋于无穷。当我们有了回报之后,就可以定义状态的价值了,就是状态价值函数(state-value function)。对于马尔可夫奖励过程,状态价值函数被定义成回报的期望,即