update errata

This commit is contained in:
qiwang067
2022-05-05 00:03:18 +08:00
parent 780812a43c
commit 95de66d795

View File

@@ -61,6 +61,10 @@ for i_ep in range(cfg.train_eps):
```
* 103页图3.37上面一段:具体可以查看 GitHub 上的源码 → 具体可以查看本书配套代码
* 106页4.1节上面添加以下文字:
    策略梯度算法是基于策略的方法,其对策略进行了参数化。假设参数为 $\theta$ 的策略为 $\pi_{\theta}$,该策略为随机性策略,其输入某个状态,输出一个动作的概率分布。策略梯度算法不需要在动作空间中最大化价值,因此较为适合解决具有高维或者连续动作空间的问题。
* 140页6.1节上面一段的第1行深度 Q 网络Deep Q-networkDQN→ 深度 Q 网络deep Q-networkDQN
* 140页6.1节上面添加以下文字: