update

2025-03-14 10:53:14 +08:00
parent 1c9e33e161
commit e7fd144400
1 changed files with 3 additions and 3 deletions
@@ -3,13 +3,13 @@
 **如何使用勘误？首先找到你的书的印次，接下来对着下表索引印次，该印次之后所有的勘误都是你的书中所要注意的勘误，印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者，所有修订内容都列举在此。其中部分修订是为了更便于读者理解，并非原文有误。**

 ## 第1版第15次印刷（2024.01）
-* 17页，第一段倒数第4行：有 Q 学习（Q-learning）、Sarsa 等 → 有 Q 学习（Q-learning）、Sarsa 、深度Q网络（deep Q-network，DQN）等
+* 17页，第一段倒数第4行：有 Q 学习（Q-learning）、Sarsa 等 → 有 Q 学习（Q-learning）、Sarsa 、深度Q网络等
 * 17页，第一段倒数第3行：价值评估 → 价值函数
 * 25页，第一段倒数第2行：游戏就结束了，我们就输了。 → 游戏就结束了。
 * 67页，表 2.1的第2行第2列：贝尔曼方程 → 贝尔曼期望方程
-* 135页，第一段1~2行：我们来看一下 **PPO1** 算法，即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法，其先初始化一个策略的参数 $\theta^{0}$，在每一个迭代中
+* 135页，第一段1~2行：我们来看一下 **PPO1** 算法，即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法，其先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中
 * 135页，第二段第2行：这里会遇到一个问题就，即 $\beta$ 要设置为多少？→ 这里会有一个问题：$\beta$ 要设置为多少。
-* 135页，倒数第一段：如果我们觉得计算 KL 散度很复杂，那么还有一个 PPO2 算法，PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂，可以使用近端策略优化裁剪算法。
+* 135页，倒数第一段：如果我们觉得计算 KL 散度很复杂，那么还有一个 PPO2 算法，PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂，那么可以使用近端策略优化裁剪算法。

 * 136页，式(5.19) 改为：