update errata

2022-05-05 00:03:18 +08:00
parent 780812a43c
commit 95de66d795
1 changed files with 4 additions and 0 deletions
--- a/docs/errata.md
+++ b/docs/errata.md
@@ -61,6 +61,10 @@ for i_ep in range(cfg.train_eps):
 ```

 * 103页，图3.37上面一段：具体可以查看 GitHub 上的源码 → 具体可以查看本书配套代码
+* 106页，4.1节上面添加以下文字：
+
+&ensp;&ensp;&ensp;&ensp;策略梯度算法是基于策略的方法，其对策略进行了参数化。假设参数为 $\theta$ 的策略为 $\pi_{\theta}$，该策略为随机性策略，其输入某个状态，输出一个动作的概率分布。策略梯度算法不需要在动作空间中最大化价值，因此较为适合解决具有高维或者连续动作空间的问题。
+
 * 140页，6.1节上面一段的第1行：深度 Q 网络（Deep Q-network，DQN）→ 深度 Q 网络（deep Q-network，DQN）
 * 140页，6.1节上面添加以下文字：