From 6c6a3c5348d5183ca0e64be21dc24a66d82e2482 Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Sun, 17 Apr 2022 19:01:40 +0800
Subject: [PATCH] update errata

---
 docs/errata.md | 1 +
 1 file changed, 1 insertion(+)

diff --git a/docs/errata.md b/docs/errata.md
index f06fe2f..fb9c0db 100644
--- a/docs/errata.md
+++ b/docs/errata.md
@@ -41,6 +41,7 @@ $$
 * 190页，9.5节第2段的第3行：也是不好实现的。我们可以实现优势演员-评论员算法就可以。 →  不好实现异步优势演员-评论员算法，但可以实现优势演员-评论员算法。
 * 191页，第4和第5行：要用梯度去更新参数......就把梯度传 → 要用梯度去更新全局网络的参数。每个进程算出梯度以后，要把梯度传
 * 191页，图9.6的上面一段的倒数第1行：变成 $\theta_2$了 → 变成$\theta_2$ 了（其他进程也会更新模型）
+* 191页，图9.6的上面一段的末尾添加文字：虽然A3C看起来属于异策略算法，但它其实是一种同策略算法。因为A3C的演员和评论员只使用当前策略采样的数据来计算梯度。因此，A3C不存储历史数据，其主要通过平行探索（parallel exploration）来保持训练的稳定性。
 * 191页，图9.6替换成下图：
 
 ![](res/A3C.png ':size=450')