This commit is contained in:
qiwang067
2021-03-01 14:10:43 +08:00
parent c921eb2472
commit ddd936ad68

View File

@@ -85,9 +85,10 @@ $$
在这中间会有随机性的是 r。因为计算你在 $s_t$ 采取同一个动作,你得到的奖励也不一定是一样的,所以 r 是一个随机变量。但这个随机变量的方差会比 $G_a$ 还要小,因为 $G_a$ 是很多 r 合起来,这边只是某一个 r 而已。$G_a$ 的方差会比较大r 的方差会比较小。但是这边你会遇到的**一个问题是你这个 V 不一定估得准**。假设你的这个 V 估得是不准的,那你使用这个式子学习出来的结果,其实也会是不准的。所以 MC 跟 TD 各有优劣。**今天其实 TD 的方法是比较常见的MC 的方法其实是比较少用的。**
![](img/6.6.png ':size=550')
**上图是讲 TD 跟 MC 的差异。**假设有某一个评论家,它去观察某一个策略 $\pi$ 跟环境互动的 8 个 episode 的结果。有一个演员 $\pi$ 跟环境互动了8 次得到了8 次玩游戏的结果。接下来这个评论家去估测状态的值。
**我们先计算 $s_b$ 的值。**$s_b$ 这个状态 在 8 场游戏里面都有经历过,其中有 6 场得到奖励 1有 2 场得到奖励 0。所以如果你是要算期望值的话就算看到状态 $s_b$ 以后得到的奖励,一直到游戏结束的时候得到的累积奖励期望值是 3/4计算过程如下式所示
**我们先计算 $s_b$ 的值。** 状态 $s_b$ 在 8 场游戏里面都有经历过,其中有 6 场得到奖励 1有 2 场得到奖励 0。所以如果你是要算期望值的话就算看到状态 $s_b$ 以后得到的奖励,一直到游戏结束的时候得到的累积奖励期望值是 3/4计算过程如下式所示
$$
\frac{6 \times 1 + 2 \times 0}{8}=\frac{6}{8}=\frac{3}{4}
$$