This commit is contained in:
qiwang067
2021-05-03 21:10:01 +08:00
parent 1e5da36547
commit 08e1a365e2

View File

@@ -274,9 +274,13 @@ $$
* 我们就可以从 $s_4$ 状态开始,随机产生很多轨迹,就是说产生很多小船,把小船扔到这个转移矩阵里面去,然后它就会随波逐流,产生轨迹。
* 每个轨迹都会得到一个 return我们得到大量的 return比如说一百个、一千个 return ,然后直接取一个平均,那么就可以等价于现在 $s_4$ 这个价值,因为 $s_4$ 的价值 $V(s_4)$ 定义了你未来可能得到多少的奖励。这就是蒙特卡罗采样的方法。
![](img/2.17.png)**我们也可以用这个动态规划的办法**,一直去迭代它的 Bellman equation让它最后收敛我们就可以得到它的一个状态。所以在这里算法二就是一个迭代的算法通过 bootstrapping(拔靴自助) 的办法,然后去不停地迭代这个 Bellman Equation。当这个最后更新的状态跟你上一个状态变化并不大的时候更新就可以停止我们就可以输出最新的 $V'(s)$ 作为它当前的状态。所以这里就是把 Bellman Equation 变成一个 Bellman Update这样就可以得到它的一个价值。
![](img/2.17.png)
>动态规划的方法基于后继状态值的估计来更新状态值的估计(算法二中的第 3 行用 $V'$ 来更新 $V$ )。也就是说,它们根据其他估算值来更新估算值。我们称这种基本思想为 bootstrapping
**我们也可以用这个动态规划的办法**,一直去迭代它的 Bellman equation让它最后收敛我们就可以得到它的一个状态。所以在这里算法二就是一个迭代的算法通过 `bootstrapping(自举) `的办法,然后去不停地迭代这个 Bellman Equation。当这个最后更新的状态跟你上一个状态变化并不大的时候更新就可以停止我们就可以输出最新的 $V'(s)$ 作为它当前的状态。所以这里就是把 Bellman Equation 变成一个 Bellman Update这样就可以得到它的一个价值
动态规划的方法基于后继状态值的估计来更新状态值的估计(算法二中的第 3 行用 $V'$ 来更新 $V$ )。也就是说,它们根据其他估算值来更新估算值。我们称这种基本思想为 bootstrapping。
>Bootstrap 本意是“解靴带”;这里是在使用徳国文学作品《吹牛大王历险记》中解靴带自助(拔靴自助)的典故,因此将其译为“自举”。
## Markov Decision Process(MDP)