update errata
This commit is contained in:
@@ -61,6 +61,10 @@ for i_ep in range(cfg.train_eps):
|
||||
```
|
||||
|
||||
* 103页,图3.37上面一段:具体可以查看 GitHub 上的源码 → 具体可以查看本书配套代码
|
||||
* 106页,4.1节上面添加以下文字:
|
||||
|
||||
    策略梯度算法是基于策略的方法,其对策略进行了参数化。假设参数为 $\theta$ 的策略为 $\pi_{\theta}$,该策略为随机性策略,其输入某个状态,输出一个动作的概率分布。策略梯度算法不需要在动作空间中最大化价值,因此较为适合解决具有高维或者连续动作空间的问题。
|
||||
|
||||
* 140页,6.1节上面一段的第1行:深度 Q 网络(Deep Q-network,DQN)→ 深度 Q 网络(deep Q-network,DQN)
|
||||
* 140页,6.1节上面添加以下文字:
|
||||
|
||||
|
||||
Reference in New Issue
Block a user