update errata

This commit is contained in:
qiwang067
2022-05-06 23:31:28 +08:00
parent 16e231aad9
commit 04183f6844

View File

@@ -99,6 +99,8 @@ $$
* 159页式(6.22) 下面一段的第1行$a$ 是让 $\hat{Q}$ 值最大的动作 → $a$ 是让 Q 值最大的动作
* 176页第1行全连接网络 → 全连接神经网络
* 176页第1行下面的代码块初始化 Q 网络,为全连接网络 → 初始化 Q 网络为全连接神经网络
* 187页图9.2的标题:深度 Q 网络 → 深度 Q 网络的两种评论员
* 187页9.3节的标题:演员-评论员算法 → 优势演员-评论员算法
* 187页倒数第1行$Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。→ 优势函数$A^{\theta}\left(s^{n}_{t}, a^{n}_{t}\right)$,即 $Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。因此该算法称为优势演员-评论员算法。
* 188页图9.3的标题:演员-评论员算法 → 优势演员-评论员算法
* 188页删除9.4节的标题,目录对应的部分也需要修改