fix ch6

2021-02-27 10:48:46 +08:00
parent 6a3494ff13
commit 137f5010f1
4 changed files with 1 additions and 3 deletions
--- a/docs/chapter6/chapter6.md
+++ b/docs/chapter6/chapter6.md
@@ -71,15 +71,13 @@ $$

 **MC 最大的问题就是方差很大。**因为我们在玩游戏的时候，它本身是有随机性的。所以你可以把 $G_a$ 看成一个随机变量。因为你每次同样走到 $s_a$ 的时候，最后你得到的 $G_a$ 其实是不一样的。你看到同样的状态 $s_a$，最后玩到游戏结束的时候，因为游戏本身是有随机性的，玩游戏的模型搞不好也有随机性，所以你每次得到的 $G_a$ 是不一样的，每一次得到 $G_a$ 的差别其实会很大。为什么它会很大呢？因为 $G_a$ 其实是很多个不同的步骤的奖励的和。假设你每一个步骤都会得到一个奖励，$G_a$ 是从状态 $s_a$ 开始，一直玩到游戏结束，每一个步骤的奖励的和。

-举例来说，我在右上角就列一个式子是说，
+举例来说，通过下面式子，我们知道 $G_a$ 的方差相较于某一个状态的奖励，它会是比较大的。

 $$
 \operatorname{Var}[k X]=k^{2} \operatorname{Var}[X]
 $$
 > Var 是指 variance。 

-通过这个式子，我们知道 $G_a$ 的方差相较于某一个状态的奖励，它会是比较大的。
-
 如果用 TD 的话，你是要去最小化这样的一个式子：

 ![](img/6.5.png ':size=450')
--- a/docs/chapter6/img/6.4.png
+++ b/docs/chapter6/img/6.4.png
--- a/docs/chapter6/img/6.8.png
+++ b/docs/chapter6/img/6.8.png
--- a/docs/chapter6/img/6.9.png
+++ b/docs/chapter6/img/6.9.png