update errata

2022-05-02 21:26:51 +08:00
parent 49095334d6
commit 366f80cff8
1 changed files with 1 additions and 0 deletions
@@ -61,6 +61,7 @@ for i_ep in range(cfg.train_eps):
 ```

 * 103页，图3.37上面一段：具体可以查看 GitHub 上的源码 → 具体可以查看本书配套代码
+* 140页，6.1节上面一段的第1行：深度 Q 网络（Deep Q-network，DQN）→ 深度 Q 网络（deep Q-network，DQN）
 * 140页，6.1节上面添加以下文字：

 &ensp;&ensp;&ensp;&ensp;深度 Q 网络算法的核心是维护 Q 函数并使用其进行决策。$Q_{\pi}(s,a)$ 为在该策略 $\pi$ 下的动作价值函数，每次到达一个状态 $s_t$ 之后，遍历整个动作空间，使用让 $Q_{\pi}(s,a)$ 最大的动作作为策略：