update errata
This commit is contained in:
@@ -21,6 +21,7 @@ J_{\mathrm{PPO}}^{\theta^k}(\theta) \approx \sum_{\left(s_t, a_t\right)} \min &
|
|||||||
\tag{5.19}
|
\tag{5.19}
|
||||||
$$
|
$$
|
||||||
|
|
||||||
|
* 136页,倒数第2段:如果介于 $1+\varepsilon \sim 1-\varepsilon$ → 如果介于 $1-\varepsilon \sim 1+\varepsilon$
|
||||||
* 140页,第一段最前面加上:本章介绍基于价值的典型强化学习算法——**深度Q网络(deep Q-network,DQN)**。
|
* 140页,第一段最前面加上:本章介绍基于价值的典型强化学习算法——**深度Q网络(deep Q-network,DQN)**。
|
||||||
* 140页,第三段第一行:深度 Q 网络(deep Q-network,DQN)→ 深度 Q 网络。
|
* 140页,第三段第一行:深度 Q 网络(deep Q-network,DQN)→ 深度 Q 网络。
|
||||||
* 165页,第一段第2行:归一化(normalization)。归一化的过程 → 零均值化。零均值化的过程
|
* 165页,第一段第2行:归一化(normalization)。归一化的过程 → 零均值化。零均值化的过程
|
||||||
|
|||||||
Reference in New Issue
Block a user