update errata
This commit is contained in:
@@ -5,7 +5,7 @@
|
||||
## 第1版第2次印刷(2022.06)
|
||||
* 24页,第一段下面的代码下面加入注解:
|
||||
|
||||
> 上面这段代码只是示例,其目的是让读者了解强化学习算法代码实现的框架,并非完整代码,`load_agent` 函数并未定义,所以运行这段代码会报错。
|
||||
> 上面这段代码只是示例,其目的是让读者了解强化学习算法代码实现的框架,并非完整代码,load_agent 函数并未定义,所以运行这段代码会报错。
|
||||
|
||||
* 36页,式(2.4)上面一段第2行和第3行:**回报(return)**是指把奖励进行折扣后所获得的奖励。回报可以定义为奖励的逐步叠加,即 → **回报(return)**可以定义为奖励的逐步叠加,假设时刻$t$后的奖励序列为$r_{t+1},r_{t+2},r_{t+3},\cdots$,则回报为
|
||||
|
||||
|
||||
Reference in New Issue
Block a user