update errata

This commit is contained in:
qiwang
2025-02-09 16:20:59 +08:00
parent 20505549b2
commit f088ce55af

View File

@@ -21,6 +21,7 @@ J_{\mathrm{PPO}}^{\theta^k}(\theta) \approx \sum_{\left(s_t, a_t\right)} \min &
\tag{5.19} \tag{5.19}
$$ $$
* 136页倒数第2段如果介于 $1+\varepsilon \sim 1-\varepsilon$ → 如果介于 $1-\varepsilon \sim 1+\varepsilon$
* 140页第一段最前面加上本章介绍基于价值的典型强化学习算法——**深度Q网络deep Q-networkDQN**。 * 140页第一段最前面加上本章介绍基于价值的典型强化学习算法——**深度Q网络deep Q-networkDQN**。
* 140页第三段第一行深度 Q 网络deep Q-networkDQN→ 深度 Q 网络。 * 140页第三段第一行深度 Q 网络deep Q-networkDQN→ 深度 Q 网络。
* 165页第一段第2行归一化normalization。归一化的过程 → 零均值化。零均值化的过程 * 165页第一段第2行归一化normalization。归一化的过程 → 零均值化。零均值化的过程