fix ch2 typos

This commit is contained in:
qiwang067
2020-11-03 16:51:02 +08:00
parent 2c72bbf1d8
commit 59cc1b2a44

View File

@@ -2,7 +2,7 @@
![](img/2.1.png)
给大家介绍马尔可夫决策过程。
给大家介绍马尔可夫决策过程。
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程。
* 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。
@@ -24,7 +24,7 @@
![](img/2.4.png)如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。
我们设状态的历史为 $(h_{t}=\left\{s_{1}, s_{2}, s_{3}, \ldots, s_{t}\right\}$$h_t$ 包含了之前的所有状态),如果一个状态转移是符合马尔可夫的,也就是满足如下条件:
我们设状态的历史为 $h_{t}=\left\{s_{1}, s_{2}, s_{3}, \ldots, s_{t}\right\}$$h_t$ 包含了之前的所有状态),如果一个状态转移是符合马尔可夫的,也就是满足如下条件:
$$
p\left(s_{t+1} \mid s_{t}\right) =p\left(s_{t+1} \mid h_{t}\right) \tag{1}
$$