update errata
This commit is contained in:
@@ -61,6 +61,7 @@ for i_ep in range(cfg.train_eps):
|
||||
```
|
||||
|
||||
* 103页,图3.37上面一段:具体可以查看 GitHub 上的源码 → 具体可以查看本书配套代码
|
||||
* 140页,6.1节上面一段的第1行:深度 Q 网络(Deep Q-network,DQN)→ 深度 Q 网络(deep Q-network,DQN)
|
||||
* 140页,6.1节上面添加以下文字:
|
||||
|
||||
    深度 Q 网络算法的核心是维护 Q 函数并使用其进行决策。$Q_{\pi}(s,a)$ 为在该策略 $\pi$ 下的动作价值函数,每次到达一个状态 $s_t$ 之后,遍历整个动作空间,使用让 $Q_{\pi}(s,a)$ 最大的动作作为策略:
|
||||
|
||||
Reference in New Issue
Block a user