fix ch2 typos

2020-12-10 22:32:52 +08:00
parent c227144388
commit 3112bc7ce7
1 changed files with 7 additions and 9 deletions
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -4,7 +4,7 @@

 本章给大家介绍马尔可夫决策过程。

-* 在介绍马尔可夫决策过程之前，先介绍它的简化版本：马尔可夫链以及马尔可夫奖励过程，通过跟这两种过程的比较，我们可以更生动地理解马尔可夫决策过程。
+* 在介绍马尔可夫决策过程之前，先介绍它的简化版本：马尔可夫链以及马尔可夫奖励过程，通过跟这两种过程的比较，我们可以更容易地理解马尔可夫决策过程。
 * 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`，就是当给定一个决策过后，怎么去计算它的价值函数。
 * 第三部分会介绍马尔可夫决策过程的控制，具体有两种算法：`policy iteration` 和 `value iteration`。

@@ -14,9 +14,7 @@

 在强化学习中，agent 跟环境就是这样进行交互的，这个交互过程是可以通过马尔可夫决策过程来表示的，所以马尔可夫决策过程是强化学习里面的一个基本框架。在马尔可夫决策过程中，它的环境是 `fully observable` ，就是全部可以观测的。但是很多时候环境里面有些量是不可观测的，但是这个部分观测的问题也可以转换成一个 MDP 的问题。

-![](img/2.3.png)
-
-在介绍马尔可夫决策过程之前，先给大家梳理一下马尔可夫、马尔可夫奖励过程。这两个过程是马尔可夫决策过程的一个基础。
+在介绍马尔可夫决策过程(Markov Decision Process，MDP)之前，先给大家梳理一下马尔可夫过程(Markov Process，MP)、马尔可夫奖励过程(Markov Reward Processes，MRP)。这两个过程是马尔可夫决策过程的一个基础。

 ## Markov Process(MP)

@@ -390,7 +388,7 @@ $$
 * 第一层加和就是这个叶子节点，往上走一层的话，我们就可以把未来的价值($s'$ 的价值) backup 到黑色的节点。
 * 第二层加和是对 action 进行加和。得到黑色节点的价值过后，再往上 backup 一层，就会推到根节点的价值，即当前状态的价值。

-![](img/state_value_function_backup.png)
+![](img/state_value_function_backup.png ':size=450')

 上图是状态-价值函数的计算分解图，上图 B 计算公式为
 $$
@@ -418,7 +416,7 @@ $$
 * 第一层加和是先把这个叶子节点从黑色节点推到这个白色的节点，进了它的这个状态。
 * 当我们到达某一个状态过后，再对这个白色节点进行一个加和，这样就把它重新推回到当前时刻的一个 Q 函数。

-![](img/q_function_backup.png)
+![](img/q_function_backup.png ':size=450')

 在上图 C 中，
 $$
@@ -741,8 +739,8 @@ $$

 我们从另一个角度思考问题，动态规划的方法将优化问题分成两个部分：

-* 我第一步执行的是最优的 action；
-* 我之后后继的状态每一步都按照最优的 policy 去做，那么我最后的结果就是最优的。
+* 第一步执行的是最优的 action；
+* 之后后继的状态每一步都按照最优的 policy 去做，那么我最后的结果就是最优的。

 **Principle of Optimality Theorem**:

@@ -798,7 +796,7 @@ $$

 ![](img/2.56.png ':size=550')

-* **现在进行 policy improvement，按 policy update。**按这个 policy update 过后，你可以发现有些格子里面的 policy 已经产生变化。
+* **现在进行 policy improvement，点一下 policy update。**点一下 policy update 过后，你可以发现有些格子里面的 policy 已经产生变化。
 * 比如说对于中间这个 -1 的这个状态，它的最佳策略是往下走。当你到达这个状态后，你应该往下，这样就会得到最佳的这个值。
 * 绿色右边的这个方块的策略也改变了，它现在选取的最佳策略是往左走，也就是说在这个状态的时候，最佳策略应该是往左走。