diff --git a/docs/errata.md b/docs/errata.md index 8f532d9..9eb431c 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -38,6 +38,13 @@ V^{\pi}(s) &\le Q^{\pi}(s,\pi'(s)) \\ \end{aligned} $$ +* 190页,9.5节第2段的第3行:也是不好实现的。我们可以实现优势演员-评论员算法就可以。 → 不好实现异步优势演员-评论员算法,但可以实现优势演员-评论员算法。 +* 191页,第4和第5行:要用梯度去更新参数......就把梯度传 → 要用梯度去更新全局网络的参数。每个进程算出梯度以后,要把梯度传 +* 191页,图9.6的上面一段的倒数第1行:变成 $\theta_2$了 → 变成$\theta_2$ 了(其他进程也会更新模型) +* 191页,图9.6替换成下图: + +![](res/A3C.png ':size=450') + * 200页,第6行:它的目标是要让每一场表演都获得观众尽可能多的欢呼声与掌声,也就是要最大化未来的总奖励 → 评论员的最终目标是让演员的表演获得观众尽可能多的欢呼声和掌声,从而最大化未来的总收益 * 201页,图10.7的上面一段的倒数第1行:均方差 → 均方误差(mean squared error,MSE)