diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 7720160..d53a294 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -4,7 +4,7 @@ 本章给大家介绍马尔可夫决策过程。 -* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程。 +* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易地理解马尔可夫决策过程。 * 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。 * 第三部分会介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration` 和 `value iteration`。 @@ -14,9 +14,7 @@ 在强化学习中,agent 跟环境就是这样进行交互的,这个交互过程是可以通过马尔可夫决策过程来表示的,所以马尔可夫决策过程是强化学习里面的一个基本框架。在马尔可夫决策过程中,它的环境是 `fully observable` ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测的,但是这个部分观测的问题也可以转换成一个 MDP 的问题。 -![](img/2.3.png) - -在介绍马尔可夫决策过程之前,先给大家梳理一下马尔可夫、马尔可夫奖励过程。这两个过程是马尔可夫决策过程的一个基础。 +在介绍马尔可夫决策过程(Markov Decision Process,MDP)之前,先给大家梳理一下马尔可夫过程(Markov Process,MP)、马尔可夫奖励过程(Markov Reward Processes,MRP)。这两个过程是马尔可夫决策过程的一个基础。 ## Markov Process(MP) @@ -390,7 +388,7 @@ $$ * 第一层加和就是这个叶子节点,往上走一层的话,我们就可以把未来的价值($s'$ 的价值) backup 到黑色的节点。 * 第二层加和是对 action 进行加和。得到黑色节点的价值过后,再往上 backup 一层,就会推到根节点的价值,即当前状态的价值。 -![](img/state_value_function_backup.png) +![](img/state_value_function_backup.png ':size=450') 上图是状态-价值函数的计算分解图,上图 B 计算公式为 $$ @@ -418,7 +416,7 @@ $$ * 第一层加和是先把这个叶子节点从黑色节点推到这个白色的节点,进了它的这个状态。 * 当我们到达某一个状态过后,再对这个白色节点进行一个加和,这样就把它重新推回到当前时刻的一个 Q 函数。 -![](img/q_function_backup.png) +![](img/q_function_backup.png ':size=450') 在上图 C 中, $$ @@ -741,8 +739,8 @@ $$ 我们从另一个角度思考问题,动态规划的方法将优化问题分成两个部分: -* 我第一步执行的是最优的 action; -* 我之后后继的状态每一步都按照最优的 policy 去做,那么我最后的结果就是最优的。 +* 第一步执行的是最优的 action; +* 之后后继的状态每一步都按照最优的 policy 去做,那么我最后的结果就是最优的。 **Principle of Optimality Theorem**: @@ -798,7 +796,7 @@ $$ ![](img/2.56.png ':size=550') -* **现在进行 policy improvement,按 policy update。**按这个 policy update 过后,你可以发现有些格子里面的 policy 已经产生变化。 +* **现在进行 policy improvement,点一下 policy update。**点一下 policy update 过后,你可以发现有些格子里面的 policy 已经产生变化。 * 比如说对于中间这个 -1 的这个状态,它的最佳策略是往下走。当你到达这个状态后,你应该往下,这样就会得到最佳的这个值。 * 绿色右边的这个方块的策略也改变了,它现在选取的最佳策略是往左走,也就是说在这个状态的时候,最佳策略应该是往左走。