update errata

This commit is contained in:
qiwang
2024-06-18 19:51:03 +08:00
parent b6f7133169
commit b44a51aa36

View File

@@ -5,6 +5,7 @@
## 第1版第9次印刷2024.01 ## 第1版第9次印刷2024.01
* 17页第一段倒数第4行有 Q 学习Q-learning、Sarsa 等 → 有 Q 学习Q-learning、Sarsa 、深度Q网络deep Q-networkDQN * 17页第一段倒数第4行有 Q 学习Q-learning、Sarsa 等 → 有 Q 学习Q-learning、Sarsa 、深度Q网络deep Q-networkDQN
* 17页第一段倒数第3行价值评估 → 价值函数 * 17页第一段倒数第3行价值评估 → 价值函数
* 25页第一段倒数第2行游戏就结束了我们就输了。 → 游戏就结束了。
* 135页第一段1~2行我们来看一下 **PPO1** 算法,即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法,其先初始化一个策略的参数 $\theta^{0}$,在每一个迭代中 * 135页第一段1~2行我们来看一下 **PPO1** 算法,即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法,其先初始化一个策略的参数 $\theta^{0}$,在每一个迭代中
* 135页第二段第2行这里会遇到一个问题就即 $\beta$ 要设置为多少?→ 这里会有一个问题:$\beta$ 要设置为多少。 * 135页第二段第2行这里会遇到一个问题就即 $\beta$ 要设置为多少?→ 这里会有一个问题:$\beta$ 要设置为多少。
* 135页倒数第一段如果我们觉得计算 KL 散度很复杂,那么还有一个 PPO2 算法PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂,可以使用近端策略优化裁剪算法。 * 135页倒数第一段如果我们觉得计算 KL 散度很复杂,那么还有一个 PPO2 算法PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂,可以使用近端策略优化裁剪算法。