update errata
This commit is contained in:
@@ -99,6 +99,8 @@ $$
|
||||
* 159页,式(6.22) 下面一段的第1行:$a$ 是让 $\hat{Q}$ 值最大的动作 → $a$ 是让 Q 值最大的动作
|
||||
* 176页,第1行:全连接网络 → 全连接神经网络
|
||||
* 176页,第1行下面的代码块:初始化 Q 网络,为全连接网络 → 初始化 Q 网络为全连接神经网络
|
||||
* 187页,图9.2的标题:深度 Q 网络 → 深度 Q 网络的两种评论员
|
||||
* 187页,9.3节的标题:演员-评论员算法 → 优势演员-评论员算法
|
||||
* 187页,倒数第1行:$Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。→ 优势函数$A^{\theta}\left(s^{n}_{t}, a^{n}_{t}\right)$,即 $Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。因此该算法称为优势演员-评论员算法。
|
||||
* 188页,图9.3的标题:演员-评论员算法 → 优势演员-评论员算法
|
||||
* 188页,删除9.4节的标题,目录对应的部分也需要修改
|
||||
|
||||
Reference in New Issue
Block a user