update errata
This commit is contained in:
@@ -99,6 +99,12 @@ $$
|
||||
* 159页,式(6.22) 下面一段的第1行:$a$ 是让 $\hat{Q}$ 值最大的动作 → $a$ 是让 Q 值最大的动作
|
||||
* 176页,第1行:全连接网络 → 全连接神经网络
|
||||
* 176页,第1行下面的代码块:初始化 Q 网络,为全连接网络 → 初始化 Q 网络为全连接神经网络
|
||||
* 187页,倒数第1行:$Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。→ 优势函数$A^{\theta}\left(s^{n}_{t}, a^{n}_{t}\right)$,即 $Q_{\pi_{\theta}}\left(s_{t}^{n}, a_{t}^{n}\right)-V_{\pi_{\theta}}\left(s_{t}^{n}\right)$。因此该算法称为优势演员-评论员算法。
|
||||
* 188页,图9.3的标题:演员-评论员算法 → 优势演员-评论员算法
|
||||
* 188页,删除9.4节的标题,目录对应的部分也需要修改
|
||||
* 188页,9.4节的第一段的第1行:原始的演员-评论员算法 → 原始的优势演员-评论员算法
|
||||
* 188页,式(9.5)的上面一行:可得 → 可得时序差分误差
|
||||
* 189页,删除第4行到第5行的文字:因为 $r_{t}^{n}+V_{\pi}\left(s_{t+1}^{n}\right)-V_{\pi}\left(s_{t}^{n}\right)$ 被称为优势函数,所以该算法被称为优势演员-评论员算法。
|
||||
* 190页,9.5节第2段的第3行:也是不好实现的。我们可以实现优势演员-评论员算法就可以。 → 不好实现异步优势演员-评论员算法,但可以实现优势演员-评论员算法。
|
||||
* 191页,第4和第5行:要用梯度去更新参数......就把梯度传 → 要用梯度去更新全局网络的参数。每个进程算出梯度以后,要把梯度传
|
||||
* 191页,图9.6的上面一段的倒数第1行:变成 $\theta_2$了 → 变成$\theta_2$ 了(其他进程也会更新模型)
|
||||
|
||||
Reference in New Issue
Block a user