update errata

2022-05-06 23:31:28 +08:00
parent 16e231aad9
commit 04183f6844
1 changed files with 2 additions and 0 deletions
--- a/docs/errata.md
+++ b/docs/errata.md
@@ -99,6 +99,8 @@ $$
 * 159页，式(6.22) 下面一段的第1行：$a$ 是让 $\hat{Q}$ 值最大的动作 →  $a$ 是让 Q 值最大的动作 
 * 176页，第1行：全连接网络 → 全连接神经网络
 * 176页，第1行下面的代码块：初始化 Q 网络，为全连接网络 → 初始化 Q 网络为全连接神经网络
+* 187页，图9.2的标题：深度 Q 网络 → 深度 Q 网络的两种评论员
+* 187页，9.3节的标题：演员-评论员算法 → 优势演员-评论员算法
 * 187页，倒数第1行：$Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。→ 优势函数$A^{\theta}\left(s^{n}_{t}, a^{n}_{t}\right)$，即 $Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。因此该算法称为优势演员-评论员算法。
 * 188页，图9.3的标题：演员-评论员算法 → 优势演员-评论员算法
 * 188页，删除9.4节的标题，目录对应的部分也需要修改