update errata

2024-06-18 19:51:03 +08:00
parent b6f7133169
commit b44a51aa36
1 changed files with 1 additions and 0 deletions
--- a/docs/errata.md
+++ b/docs/errata.md
@@ -5,6 +5,7 @@
 ## 第1版第9次印刷（2024.01）
 * 17页，第一段倒数第4行：有 Q 学习（Q-learning）、Sarsa 等 → 有 Q 学习（Q-learning）、Sarsa 、深度Q网络（deep Q-network，DQN）等
 * 17页，第一段倒数第3行：价值评估 → 价值函数
 * 25页，第一段倒数第2行：游戏就结束了，我们就输了。 → 游戏就结束了。
 * 135页，第一段1~2行：我们来看一下 **PPO1** 算法，即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法，其先初始化一个策略的参数 $\theta^{0}$，在每一个迭代中
 * 135页，第二段第2行：这里会遇到一个问题就，即 $\beta$ 要设置为多少？→ 这里会有一个问题：$\beta$ 要设置为多少。
 * 135页，倒数第一段：如果我们觉得计算 KL 散度很复杂，那么还有一个 PPO2 算法，PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂，可以使用近端策略优化裁剪算法。