diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index b1f3b86..9a07853 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -5,8 +5,8 @@ 这节课我会给大家介绍马尔可夫决策过程。 * 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程。 -* 第二部分,我会给大家介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。 -* 第三部分,我会给大家介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration` 和 `value iteration`。 +* 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。 +* 第三部分会介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration` 和 `value iteration`。 ![](img/2.2.png) @@ -18,7 +18,7 @@ ## Markov Process(MP) -![](img/2.4.png)如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。比如说我们这里有一个 $h_t$,它包含了之前的所有状态。但是这里的转移从当前 $s_t$ 转到 $s_{t+1}$ 这个状态,它是直接就等于它之前所有的状态。如果某一个过程满足`马尔可夫性质(Markov Property)`,就是说未来的转移跟过去是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。 +![](img/2.4.png)如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。比如说我们这里有一个 $h_t$,它包含了之前的所有状态。但是这里的转移从当前 $s_t$ 转到 $s_{t+1}$ 这个状态,它是直接就等于它之前所有的状态。如果某一个过程满足`马尔可夫性质(Markov Property)`,就是说未来的转移跟过去是独立的,它只取决于现在。**马尔可夫性质是所有马尔可夫过程的基础。** ![](img/2.5.png) @@ -178,7 +178,7 @@ $$ 接下来给大家介绍 MDP 的 `prediction` 和 `control`,这两个问题是 MDP 里面的核心问题。 -* Prediction 的意思是说给定一个 MDP 以及一个 policy $\pi$ ,去计算它的 value function,就等于每个状态它的价值函数是多少。 +* Prediction 是说给定一个 MDP 以及一个 policy $\pi$ ,去计算它的 value function,就等于每个状态它的价值函数是多少。 * Control 这个问题是说我们去寻找一个最佳的一个策略,它的 input 就是MDP,输出是通过去寻找它的最佳策略,然后同时输出它的最佳价值函数(optimal value function)以及它的这个最佳策略(optimal policy)。 * 在 MDP 里面,prediction 和 control 都可以通过这个动态规划去解决。 @@ -218,7 +218,7 @@ $$ ![](img/2.39.png) -所以当迭代第一次的时候,然后我们 $v(s)$ 某些状态已经有些值的变化。 +所以当迭代第一次的时候,我们 $v(s)$ 某些状态已经有些值的变化。 ![](img/2.40.png)