From 6c6a3c5348d5183ca0e64be21dc24a66d82e2482 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Sun, 17 Apr 2022 19:01:40 +0800 Subject: [PATCH] update errata --- docs/errata.md | 1 + 1 file changed, 1 insertion(+) diff --git a/docs/errata.md b/docs/errata.md index f06fe2f..fb9c0db 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -41,6 +41,7 @@ $$ * 190页,9.5节第2段的第3行:也是不好实现的。我们可以实现优势演员-评论员算法就可以。 → 不好实现异步优势演员-评论员算法,但可以实现优势演员-评论员算法。 * 191页,第4和第5行:要用梯度去更新参数......就把梯度传 → 要用梯度去更新全局网络的参数。每个进程算出梯度以后,要把梯度传 * 191页,图9.6的上面一段的倒数第1行:变成 $\theta_2$了 → 变成$\theta_2$ 了(其他进程也会更新模型) +* 191页,图9.6的上面一段的末尾添加文字:虽然A3C看起来属于异策略算法,但它其实是一种同策略算法。因为A3C的演员和评论员只使用当前策略采样的数据来计算梯度。因此,A3C不存储历史数据,其主要通过平行探索(parallel exploration)来保持训练的稳定性。 * 191页,图9.6替换成下图: ![](res/A3C.png ':size=450')