update errata

This commit is contained in:
qiwang067
2023-12-13 02:57:31 +08:00
parent 82fde031fb
commit d48754c21d

View File

@@ -3,10 +3,16 @@
**如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。**
## 第1版第8次印刷2023.11
前勒口作者简介
* 主要符号表在 $r$ 后面添加 4 行
* $\mathcal{S}$ 所有非终止状态的集合
* $\mathcal{S}^{+}$ 所有状态的集合
* $\mathcal{A}(s)$ 在状态 $s$ 可执行动作的集合
* $\mathcal{R}$ 所有可能奖励的集合
* 前勒口作者简介:
* 王琦:
* 主要研究方向为深度学习、数据挖掘 → 主要研究方向为强化学习、计算机视觉
* 36页式(2.4) 改为:
$$
@@ -29,6 +35,15 @@ $$
其中,$G_t$ 是之前定义的折扣回报。我们对 $G_t$ 取了一个期望,期望就是从当前状态开始,可能获得多大的价值。因此期望也可以看成未来可能获得奖励的当前价值表现,即当我们进入某一个状态后,现在有多大的价值。
* 96页
* 图3.33(a)、图3.33(b)的第2行
* $s \in S^{+}, a \in A(s)$ → $s \in \mathcal{S}^{+}, a \in \mathcal{A}(s)$
* 终点 → 终止状态
* 图3.33(a)、图3.33(b)的第7行观测 → 得到
## 第1版第7次印刷2023.10
* 36页第三段改为其中$T$ 是最终时刻,$\gamma$ 是折扣因子,越往后得到的奖励,折扣越多。这说明我们更希望得到现有的奖励,对未来的奖励要打折扣。但式 (2.4) 定义有些问题,当任务为持续性任务时,$T=\infty$如果智能体每个时刻都收到正的奖励回报也就会趋于无穷。当我们有了回报之后就可以定义状态的价值了就是状态价值函数state-value function。对于马尔可夫奖励过程状态价值函数被定义成回报的期望