update errata

2022-06-23 12:29:40 +08:00
parent 90e9c32d9b
commit 5b2a0fc383
1 changed files with 1 additions and 1 deletions
@@ -5,7 +5,7 @@
 ## 第1版第2次印刷（2022.06）
 * 24页，第一段下面的代码下面加入注解：

-> 上面这段代码只是示例，其目的是让读者了解强化学习算法代码实现的框架，并非完整代码，`load_agent` 函数并未定义，所以运行这段代码会报错。
+> 上面这段代码只是示例，其目的是让读者了解强化学习算法代码实现的框架，并非完整代码，load_agent 函数并未定义，所以运行这段代码会报错。

 * 36页，式(2.4)上面一段第2行和第3行：**回报（return）**是指把奖励进行折扣后所获得的奖励。回报可以定义为奖励的逐步叠加，即 → **回报（return）**可以定义为奖励的逐步叠加，假设时刻$t$后的奖励序列为$r_{t+1},r_{t+2},r_{t+3},\cdots$，则回报为