update errata

This commit is contained in:
qiwang067
2022-05-06 23:35:11 +08:00
parent 04183f6844
commit d068c03061

View File

@@ -106,7 +106,7 @@ $$
* 188页删除9.4节的标题,目录对应的部分也需要修改
* 188页9.4节的第一段的第1行原始的演员-评论员算法 → 原始的优势演员-评论员算法
* 188页式(9.5)的上面一行:可得 → 可得时序差分误差
* 189页删除第4行到第5行的文字因为 $r_{t}^{n}+V_{\pi}\left(s_{t+1}^{n}\right)-V_{\pi}\left(s_{t}^{n}\right)$ 被称为优势函数,所以该算法被称为优势演员-评论员算法。
* 189页删除第4行到第5行的文字因为 $r_{t}^{n}+V_{\pi}\left(s_{t+1}^{n}\right)-V_{\pi}\left(s_{t}^{n}\right)$ 被称为**优势函数**,所以该算法被称为优势演员-评论员算法。
* 190页9.5节第2段的第3行也是不好实现的。我们可以实现优势演员-评论员算法就可以。 → 不好实现异步优势演员-评论员算法,但可以实现优势演员-评论员算法。
* 191页第4和第5行要用梯度去更新参数......就把梯度传 → 要用梯度去更新全局网络的参数。每个进程算出梯度以后,要把梯度传
* 191页图9.6的上面一段的倒数第1行变成 $\theta_2$了 → 变成$\theta_2$ 了(其他进程也会更新模型)