diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index d53a294..543c80a 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -4,7 +4,7 @@ 本章给大家介绍马尔可夫决策过程。 -* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易地理解马尔可夫决策过程。 +* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易理解马尔可夫决策过程。 * 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。 * 第三部分会介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration` 和 `value iteration`。