fix some typos

This commit is contained in:
qiwang067
2020-12-03 16:37:59 +08:00
parent a4bb48eb5d
commit 9c28b5dc08
2 changed files with 3 additions and 3 deletions

View File

@@ -76,7 +76,7 @@ Var 是指 variance。
如果用 TD 的话,你是要去最小化这样的一个式子:
![](img/6.5.png 'size=450')
![](img/6.5.png ':size=450')
在这中间会有随机性的是 r。因为计算你在 $s_t$ 采取同一个动作,你得到的奖励也不一定是一样的,所以 r 是一个随机变量。但这个随机变量的方差会比 $G_a$ 还要小,因为 $G_a$ 是很多 r 合起来,这边只是某一个 r 而已。$G_a$ 的方差会比较大r 的方差会比较小。但是这边你会遇到的**一个问题是你这个 V 不一定估得准**。假设你的这个 V 估得是不准的,那你使用这个式子学习出来的结果,其实也会是不准的。所以 MC 跟 TD 各有优劣。**今天其实 TD 的方法是比较常见的MC 的方法其实是比较少用的。**