fix ch6
This commit is contained in:
@@ -70,14 +70,18 @@ $$
|
|||||||
**MC 跟 TD 有什么样的差别呢?**
|
**MC 跟 TD 有什么样的差别呢?**
|
||||||
|
|
||||||
**MC 最大的问题就是方差很大。**因为我们在玩游戏的时候,它本身是有随机性的。所以你可以把 $G_a$ 看成一个随机变量。因为你每次同样走到 $s_a$ 的时候,最后你得到的 $G_a$ 其实是不一样的。你看到同样的状态 $s_a$,最后玩到游戏结束的时候,因为游戏本身是有随机性的,玩游戏的模型搞不好也有随机性,所以你每次得到的 $G_a$ 是不一样的,每一次得到 $G_a$ 的差别其实会很大。为什么它会很大呢?因为 $G_a$ 其实是很多个不同的步骤的奖励的和。假设你每一个步骤都会得到一个奖励,$G_a$ 是从状态 $s_a$ 开始,一直玩到游戏结束,每一个步骤的奖励的和。
|
**MC 最大的问题就是方差很大。**因为我们在玩游戏的时候,它本身是有随机性的。所以你可以把 $G_a$ 看成一个随机变量。因为你每次同样走到 $s_a$ 的时候,最后你得到的 $G_a$ 其实是不一样的。你看到同样的状态 $s_a$,最后玩到游戏结束的时候,因为游戏本身是有随机性的,玩游戏的模型搞不好也有随机性,所以你每次得到的 $G_a$ 是不一样的,每一次得到 $G_a$ 的差别其实会很大。为什么它会很大呢?因为 $G_a$ 其实是很多个不同的步骤的奖励的和。假设你每一个步骤都会得到一个奖励,$G_a$ 是从状态 $s_a$ 开始,一直玩到游戏结束,每一个步骤的奖励的和。
|
||||||
|
|
||||||
举例来说,通过下面式子,我们知道 $G_a$ 的方差相较于某一个状态的奖励,它会是比较大的。
|
|
||||||
|
|
||||||
$$
|
$$
|
||||||
\operatorname{Var}[k X]=k^{2} \operatorname{Var}[X]
|
\operatorname{Var}[k X]=k^{2} \operatorname{Var}[X]
|
||||||
$$
|
$$
|
||||||
> Var 是指 variance。
|
> Var 是指 variance。
|
||||||
|
|
||||||
|
为了方便说明问题,我们简化一下,假设从状态 $s_a$ 开始,一直玩到游戏结束,各个步骤的奖励相同,均为 $r_a$, $G_a=kr_a$。根据上式,则可得
|
||||||
|
$$
|
||||||
|
\operatorname{Var}[G_a]=\operatorname{Var}[kr_a]=k^{2} \operatorname{Var}[r_a]
|
||||||
|
$$
|
||||||
|
|
||||||
|
因此 $G_a$ 的方差相较于某一个状态的奖励是比较大的。
|
||||||
|
|
||||||
如果用 TD 的话,你是要去最小化这样的一个式子:
|
如果用 TD 的话,你是要去最小化这样的一个式子:
|
||||||
|
|
||||||

|

|
||||||
|
|||||||
Reference in New Issue
Block a user