update errata
This commit is contained in:
@@ -2,7 +2,19 @@
|
|||||||
|
|
||||||
**如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。**
|
**如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。**
|
||||||
|
|
||||||
|
## 第1版第5次印刷(2023.01)
|
||||||
|
|
||||||
|
前勒口作者简介:
|
||||||
|
|
||||||
|
* 王琦:
|
||||||
|
* 曾获中国大学生计算机设计大赛二等奖 → 曾获“中国光谷·华为杯”第十九届中国研究生数学建模竞赛二等奖、中国大学生计算机设计大赛二等奖
|
||||||
|
* 133页,5.2节第二段的第1行到第3行:注意,由于在 PPO 中 $\theta'$ 是 $\theta_{\text{old}}$,即行为策略也是 $\pi_{\theta}$,因此 PPO 是同策略的算法。如式(5.15) 所示,PPO 实际上做的事情就是这样,在异策略的方法里优化目标函数 $J^{\theta^{\prime}}(\theta)$。→ 如式(5.15)所示,PPO 需要优化目标函数 $J^{\theta^{\prime}}(\theta)$。
|
||||||
|
* 133页,5.2节第二段的倒数第1行加入以下内容:**注意,虽然 PPO 的优化目标涉及到了重要性采样,但其只用到了上一轮策略 $\theta^{\prime}$ 的数据。PPO 目标函数中加入了 KL 散度的约束,行为策略 $\theta^{\prime}$ 和目标策略 $\theta$ 非常接近,PPO 的行为策略和目标策略可认为是同一个策略,因此 PPO 是同策略算法。**
|
||||||
|
|
||||||
|
## 第1版第4次印刷(2022.11)
|
||||||
|
|
||||||
## 第1版第3次印刷(2022.07)
|
## 第1版第3次印刷(2022.07)
|
||||||
|
|
||||||
* 前勒口作者简介:
|
* 前勒口作者简介:
|
||||||
* 王琦:
|
* 王琦:
|
||||||
* 中国科学院大学硕士在读 → 中国科学院大学硕士
|
* 中国科学院大学硕士在读 → 中国科学院大学硕士
|
||||||
@@ -43,9 +55,6 @@ pip install gym==0.25.2
|
|||||||

|

|
||||||
|
|
||||||
* 127页,5.1节的标题:从同策略到异策略 → 重要性采样
|
* 127页,5.1节的标题:从同策略到异策略 → 重要性采样
|
||||||
* 133页,5.2节第二段的第1行到第3行:注意,由于在 PPO 中 $\theta'$ 是 $\theta_{\text{old}}$,即行为策略也是 $\pi_{\theta}$,因此 PPO 是同策略的算法。如式(5.15) 所示,PPO 实际上做的事情就是这样,在异策略的方法里优化目标函数 $J^{\theta^{\prime}}(\theta)$。→ 如式(5.15)所示,PPO 需要优化目标函数 $J^{\theta^{\prime}}(\theta)$。
|
|
||||||
* 133页,5.2节第二段的倒数第1行加入以下内容:**注意,虽然 PPO 的优化目标涉及到了重要性采样,但其只用到了上一轮策略 $\theta^{\prime}$ 的数据。PPO 目标函数中加入了 KL 散度的约束,行为策略 $\theta^{\prime}$ 和目标策略 $\theta$ 非常接近,PPO 的行为策略和目标策略可认为是同一个策略,因此 PPO 是同策略算法。**
|
|
||||||
|
|
||||||
* 134页,式(5.16)下面一段第2行:最大化式 (5.16) → 最大化式 (5.15)
|
* 134页,式(5.16)下面一段第2行:最大化式 (5.16) → 最大化式 (5.15)
|
||||||
* 165页,第一段的第4行到第5行:归一化的向量为 $[3,-1,2]^{\mathrm{T}}$ → 归一化的向量为 $[3,-1,-2]^{\mathrm{T}}$
|
* 165页,第一段的第4行到第5行:归一化的向量为 $[3,-1,2]^{\mathrm{T}}$ → 归一化的向量为 $[3,-1,-2]^{\mathrm{T}}$
|
||||||
* 165页,第二段的第1行:向量 $[3,-1,2]^{\mathrm{T}}$ 中的每个元素 → 向量 $[3,-1,-2]^{\mathrm{T}}$ 中的每个元素
|
* 165页,第二段的第1行:向量 $[3,-1,2]^{\mathrm{T}}$ 中的每个元素 → 向量 $[3,-1,-2]^{\mathrm{T}}$ 中的每个元素
|
||||||
|
|||||||
Reference in New Issue
Block a user