update errata

This commit is contained in:
qiwang067
2022-04-17 19:01:40 +08:00
parent e822754c88
commit 6c6a3c5348

View File

@@ -41,6 +41,7 @@ $$
* 190页9.5节第2段的第3行也是不好实现的。我们可以实现优势演员-评论员算法就可以。 → 不好实现异步优势演员-评论员算法,但可以实现优势演员-评论员算法。
* 191页第4和第5行要用梯度去更新参数......就把梯度传 → 要用梯度去更新全局网络的参数。每个进程算出梯度以后,要把梯度传
* 191页图9.6的上面一段的倒数第1行变成 $\theta_2$了 → 变成$\theta_2$ 了(其他进程也会更新模型)
* 191页图9.6的上面一段的末尾添加文字虽然A3C看起来属于异策略算法但它其实是一种同策略算法。因为A3C的演员和评论员只使用当前策略采样的数据来计算梯度。因此A3C不存储历史数据其主要通过平行探索parallel exploration来保持训练的稳定性。
* 191页图9.6替换成下图:
![](res/A3C.png ':size=450')