udpate ch2

2024-06-24 13:12:34 +08:00
parent 262664c1fe
commit 32516ee106
1 changed files with 1 additions and 0 deletions
@@ -6,6 +6,7 @@
 * 17页，第一段倒数第4行：有 Q 学习（Q-learning）、Sarsa 等 → 有 Q 学习（Q-learning）、Sarsa 、深度Q网络（deep Q-network，DQN）等
 * 17页，第一段倒数第3行：价值评估 → 价值函数
 * 25页，第一段倒数第2行：游戏就结束了，我们就输了。 → 游戏就结束了。
+* 67页，表 2.1的第2行第2列：贝尔曼方程 → 贝尔曼期望方程
 * 135页，第一段1~2行：我们来看一下 **PPO1** 算法，即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法，其先初始化一个策略的参数 $\theta^{0}$，在每一个迭代中
 * 135页，第二段第2行：这里会遇到一个问题就，即 $\beta$ 要设置为多少？→ 这里会有一个问题：$\beta$ 要设置为多少。
 * 135页，倒数第一段：如果我们觉得计算 KL 散度很复杂，那么还有一个 PPO2 算法，PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂，可以使用近端策略优化裁剪算法。