update errata

2022-06-26 11:08:17 +08:00
parent b4ec34f608
commit e3d5b0b449
1 changed files with 2 additions and 0 deletions
@@ -10,6 +10,8 @@

 > 上面这段代码只是示例，其目的是让读者了解强化学习算法代码实现的框架，并非完整代码，load_agent 函数并未定义，所以运行这段代码会报错。

+* 33页，图2.1删除参考文献：SUTTON R S, BARTO A G. Reinforcement learning: An introduction(second edition)[M]. London:The MIT Press, 2018
+
 * 36页，式(2.4)上面一段第2行和第3行：**回报（return）**是指把奖励进行折扣后所获得的奖励。回报可以定义为奖励的逐步叠加，即 → **回报（return）**可以定义为奖励的逐步叠加，假设时刻$t$后的奖励序列为$r_{t+1},r_{t+2},r_{t+3},\cdots$，则回报为

 * 36页，式(2.4)下面一段第1行：这里有一个折扣因子，→ 其中，$T$是最终时刻，$\gamma$ 是折扣因子，