fix ch2 typos

This commit is contained in:
qiwang067
2020-12-10 22:32:52 +08:00
parent c227144388
commit 3112bc7ce7

View File

@@ -4,7 +4,7 @@
本章给大家介绍马尔可夫决策过程。
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程。
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易地理解马尔可夫决策过程。
* 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。
* 第三部分会介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration``value iteration`
@@ -14,9 +14,7 @@
在强化学习中agent 跟环境就是这样进行交互的,这个交互过程是可以通过马尔可夫决策过程来表示的,所以马尔可夫决策过程是强化学习里面的一个基本框架。在马尔可夫决策过程中,它的环境是 `fully observable` ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测的,但是这个部分观测的问题也可以转换成一个 MDP 的问题。
![](img/2.3.png)
在介绍马尔可夫决策过程之前,先给大家梳理一下马尔可夫、马尔可夫奖励过程。这两个过程是马尔可夫决策过程的一个基础。
在介绍马尔可夫决策过程(Markov Decision ProcessMDP)之前,先给大家梳理一下马尔可夫过程(Markov ProcessMP)、马尔可夫奖励过程(Markov Reward ProcessesMRP)。这两个过程是马尔可夫决策过程的一个基础。
## Markov Process(MP)
@@ -390,7 +388,7 @@ $$
* 第一层加和就是这个叶子节点,往上走一层的话,我们就可以把未来的价值($s'$ 的价值) backup 到黑色的节点。
* 第二层加和是对 action 进行加和。得到黑色节点的价值过后,再往上 backup 一层,就会推到根节点的价值,即当前状态的价值。
![](img/state_value_function_backup.png)
![](img/state_value_function_backup.png ':size=450')
上图是状态-价值函数的计算分解图,上图 B 计算公式为
$$
@@ -418,7 +416,7 @@ $$
* 第一层加和是先把这个叶子节点从黑色节点推到这个白色的节点,进了它的这个状态。
* 当我们到达某一个状态过后,再对这个白色节点进行一个加和,这样就把它重新推回到当前时刻的一个 Q 函数。
![](img/q_function_backup.png)
![](img/q_function_backup.png ':size=450')
在上图 C 中,
$$
@@ -741,8 +739,8 @@ $$
我们从另一个角度思考问题,动态规划的方法将优化问题分成两个部分:
* 第一步执行的是最优的 action
* 之后后继的状态每一步都按照最优的 policy 去做,那么我最后的结果就是最优的。
* 第一步执行的是最优的 action
* 之后后继的状态每一步都按照最优的 policy 去做,那么我最后的结果就是最优的。
**Principle of Optimality Theorem**:
@@ -798,7 +796,7 @@ $$
![](img/2.56.png ':size=550')
* **现在进行 policy improvement policy update。**按这个 policy update 过后,你可以发现有些格子里面的 policy 已经产生变化。
* **现在进行 policy improvement点一下 policy update。**点一下 policy update 过后,你可以发现有些格子里面的 policy 已经产生变化。
* 比如说对于中间这个 -1 的这个状态,它的最佳策略是往下走。当你到达这个状态后,你应该往下,这样就会得到最佳的这个值。
* 绿色右边的这个方块的策略也改变了,它现在选取的最佳策略是往左走,也就是说在这个状态的时候,最佳策略应该是往左走。