update errata

2022-04-17 19:01:40 +08:00
parent e822754c88
commit 6c6a3c5348
1 changed files with 1 additions and 0 deletions
--- a/docs/errata.md
+++ b/docs/errata.md
@@ -41,6 +41,7 @@ $$
 * 190页，9.5节第2段的第3行：也是不好实现的。我们可以实现优势演员-评论员算法就可以。 →  不好实现异步优势演员-评论员算法，但可以实现优势演员-评论员算法。
 * 191页，第4和第5行：要用梯度去更新参数......就把梯度传 → 要用梯度去更新全局网络的参数。每个进程算出梯度以后，要把梯度传
 * 191页，图9.6的上面一段的倒数第1行：变成 $\theta_2$了 → 变成$\theta_2$ 了（其他进程也会更新模型）
+* 191页，图9.6的上面一段的末尾添加文字：虽然A3C看起来属于异策略算法，但它其实是一种同策略算法。因为A3C的演员和评论员只使用当前策略采样的数据来计算梯度。因此，A3C不存储历史数据，其主要通过平行探索（parallel exploration）来保持训练的稳定性。
 * 191页，图9.6替换成下图：

 ![](res/A3C.png ':size=450')