From 04183f6844ccbb1ce5e82a0e875126a4265c75b9 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Fri, 6 May 2022 23:31:28 +0800 Subject: [PATCH] update errata --- docs/errata.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/docs/errata.md b/docs/errata.md index 1d47ea7..9978c88 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -99,6 +99,8 @@ $$ * 159页,式(6.22) 下面一段的第1行:$a$ 是让 $\hat{Q}$ 值最大的动作 → $a$ 是让 Q 值最大的动作 * 176页,第1行:全连接网络 → 全连接神经网络 * 176页,第1行下面的代码块:初始化 Q 网络,为全连接网络 → 初始化 Q 网络为全连接神经网络 +* 187页,图9.2的标题:深度 Q 网络 → 深度 Q 网络的两种评论员 +* 187页,9.3节的标题:演员-评论员算法 → 优势演员-评论员算法 * 187页,倒数第1行:$Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。→ 优势函数$A^{\theta}\left(s^{n}_{t}, a^{n}_{t}\right)$,即 $Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。因此该算法称为优势演员-评论员算法。 * 188页,图9.3的标题:演员-评论员算法 → 优势演员-评论员算法 * 188页,删除9.4节的标题,目录对应的部分也需要修改