update errate

This commit is contained in:
qiwang067
2022-05-02 19:08:15 +08:00
parent 5ac96ffd39
commit d956e8fac5

View File

@@ -69,7 +69,7 @@ $$
    通常在简单任务上使用全连接神经网络fully connected neural network来拟合 $Q_{\pi}$,但是在较为复杂的任务上(如玩雅达利游戏),会使用卷积神经网络来拟合从图像到价值函数的映射。由于深度 Q 网络的这种表达形式只能处理有限个动作值,因此其通常用于处理离散动作空间的任务。
* 140页后的公式编号需要进行更新。
* 145页式(6.6) 下面一段的第1行所以状态 $s_b$ 的奖励等于 → 所以状态 $s_a$ 的奖励等于
* 149页式(6.15) 改为
$$
@@ -86,6 +86,7 @@ V^{\pi}(s) &\le Q^{\pi}(s,\pi'(s)) \\
\end{aligned}
$$
* 159页式(6.22) 下面一段的第1行$a$ 是让 $\hat{Q}$ 值最大的动作 → $a$ 是让 Q 值最大的动作
* 176页第1行全连接网络 → 全连接神经网络
* 176页第1行下面的代码块初始化 Q 网络,为全连接网络 → 初始化 Q 网络为全连接神经网络
* 190页9.5节第2段的第3行也是不好实现的。我们可以实现优势演员-评论员算法就可以。 → 不好实现异步优势演员-评论员算法,但可以实现优势演员-评论员算法。