fix ch2 typos

2020-11-03 16:51:02 +08:00
parent 2c72bbf1d8
commit 59cc1b2a44
1 changed files with 2 additions and 2 deletions
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -2,7 +2,7 @@

 ![](img/2.1.png)

-本节给大家介绍马尔可夫决策过程。
+本章给大家介绍马尔可夫决策过程。

 * 在介绍马尔可夫决策过程之前，先介绍它的简化版本：马尔可夫链以及马尔可夫奖励过程，通过跟这两种过程的比较，我们可以更生动地理解马尔可夫决策过程。
 * 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`，就是当给定一个决策过后，怎么去计算它的价值函数。
@@ -24,7 +24,7 @@

 ![](img/2.4.png)如果一个状态转移是符合马尔可夫的，那就是说一个状态的下一个状态只取决于它当前状态，而跟它当前状态之前的状态都没有关系。

-我们设状态的历史为 $(h_{t}=\left\{s_{1}, s_{2}, s_{3}, \ldots, s_{t}\right\}$（$h_t$ 包含了之前的所有状态），如果一个状态转移是符合马尔可夫的，也就是满足如下条件：
+我们设状态的历史为 $h_{t}=\left\{s_{1}, s_{2}, s_{3}, \ldots, s_{t}\right\}$（$h_t$ 包含了之前的所有状态），如果一个状态转移是符合马尔可夫的，也就是满足如下条件：
 $$
 p\left(s_{t+1} \mid s_{t}\right) =p\left(s_{t+1} \mid h_{t}\right) \tag{1}
 $$