From e7fd14440074f849668dd1841f8fc5329c619805 Mon Sep 17 00:00:00 2001 From: qiwang <14494483+qiwang067@user.noreply.gitee.com> Date: Fri, 14 Mar 2025 10:53:14 +0800 Subject: [PATCH] update --- docs/errata.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/docs/errata.md b/docs/errata.md index 4b610b6..d273805 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -3,13 +3,13 @@ **如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。** ## 第1版第15次印刷(2024.01) -* 17页,第一段倒数第4行:有 Q 学习(Q-learning)、Sarsa 等 → 有 Q 学习(Q-learning)、Sarsa 、深度Q网络(deep Q-network,DQN)等 +* 17页,第一段倒数第4行:有 Q 学习(Q-learning)、Sarsa 等 → 有 Q 学习(Q-learning)、Sarsa 、深度Q网络等 * 17页,第一段倒数第3行:价值评估 → 价值函数 * 25页,第一段倒数第2行:游戏就结束了,我们就输了。 → 游戏就结束了。 * 67页,表 2.1的第2行第2列:贝尔曼方程 → 贝尔曼期望方程 -* 135页,第一段1~2行:我们来看一下 **PPO1** 算法,即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法,其先初始化一个策略的参数 $\theta^{0}$,在每一个迭代中 +* 135页,第一段1~2行:我们来看一下 **PPO1** 算法,即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法,其先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 * 135页,第二段第2行:这里会遇到一个问题就,即 $\beta$ 要设置为多少?→ 这里会有一个问题:$\beta$ 要设置为多少。 -* 135页,倒数第一段:如果我们觉得计算 KL 散度很复杂,那么还有一个 PPO2 算法,PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂,可以使用近端策略优化裁剪算法。 +* 135页,倒数第一段:如果我们觉得计算 KL 散度很复杂,那么还有一个 PPO2 算法,PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂,那么可以使用近端策略优化裁剪算法。 * 136页,式(5.19) 改为: