fix some typos

2020-12-03 16:37:59 +08:00
parent a4bb48eb5d
commit 9c28b5dc08
2 changed files with 3 additions and 3 deletions
@@ -76,7 +76,7 @@ Var 是指 variance。

 如果用 TD 的话，你是要去最小化这样的一个式子：

-![](img/6.5.png 'size=450')
+![](img/6.5.png ':size=450')

 在这中间会有随机性的是 r。因为计算你在 $s_t$ 采取同一个动作，你得到的奖励也不一定是一样的，所以 r 是一个随机变量。但这个随机变量的方差会比 $G_a$ 还要小，因为 $G_a$ 是很多 r 合起来，这边只是某一个 r  而已。$G_a$ 的方差会比较大，r  的方差会比较小。但是这边你会遇到的**一个问题是你这个 V 不一定估得准**。假设你的这个 V 估得是不准的，那你使用这个式子学习出来的结果，其实也会是不准的。所以 MC 跟 TD 各有优劣。**今天其实 TD 的方法是比较常见的，MC 的方法其实是比较少用的。**