update errate
This commit is contained in:
@@ -69,7 +69,7 @@ $$
|
||||
    通常在简单任务上,使用全连接神经网络(fully connected neural network)来拟合 $Q_{\pi}$,但是在较为复杂的任务上(如玩雅达利游戏),会使用卷积神经网络来拟合从图像到价值函数的映射。由于深度 Q 网络的这种表达形式只能处理有限个动作值,因此其通常用于处理离散动作空间的任务。
|
||||
|
||||
* 140页后的公式编号需要进行更新。
|
||||
|
||||
* 145页,式(6.6) 下面一段的第1行:所以状态 $s_b$ 的奖励等于 → 所以状态 $s_a$ 的奖励等于
|
||||
* 149页,式(6.15) 改为
|
||||
|
||||
$$
|
||||
@@ -86,6 +86,7 @@ V^{\pi}(s) &\le Q^{\pi}(s,\pi'(s)) \\
|
||||
\end{aligned}
|
||||
$$
|
||||
|
||||
* 159页,式(6.22) 下面一段的第1行:$a$ 是让 $\hat{Q}$ 值最大的动作 → $a$ 是让 Q 值最大的动作
|
||||
* 176页,第1行:全连接网络 → 全连接神经网络
|
||||
* 176页,第1行下面的代码块:初始化 Q 网络,为全连接网络 → 初始化 Q 网络为全连接神经网络
|
||||
* 190页,9.5节第2段的第3行:也是不好实现的。我们可以实现优势演员-评论员算法就可以。 → 不好实现异步优势演员-评论员算法,但可以实现优势演员-评论员算法。
|
||||
|
||||
Reference in New Issue
Block a user