update errata

This commit is contained in:
qiwang067
2022-06-14 19:19:38 +08:00
parent a0116a7e68
commit fff6444388

View File

@@ -7,6 +7,10 @@
> 上面这段代码只是示例,其目的是让读者了解强化学习算法代码实现的框架,并非完整代码,`load_agent` 函数并未定义,所以运行这段代码会报错。
* 36页式(2.4)上面一段第2行和第3行**回报return**是指把奖励进行折扣后所获得的奖励。回报可以定义为奖励的逐步叠加,即 → **回报return**可以定义为奖励的逐步叠加,假设时刻$t$后的奖励序列为$r_{t+1},r_{t+2},r_{t+3},\cdots$,则回报为
* 36页式(2.4)下面一段第1行这里有一个折扣因子→ 其中,$T$是最终时刻,$\gamma$ 是折扣因子,
* 151页第2段的倒数第1行均方误差mean square error→ 均方误差mean square errorMSE
* 201页第3段的倒数第2行均方误差mean squared errorMSE→ 均方误差
* 241页第1段的第3行和第4行均方误差mean square errorMSE→ 均方误差