fix ch2 typos
This commit is contained in:
@@ -4,7 +4,7 @@
|
||||
|
||||
本章给大家介绍马尔可夫决策过程。
|
||||
|
||||
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程。
|
||||
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易地理解马尔可夫决策过程。
|
||||
* 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。
|
||||
* 第三部分会介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration` 和 `value iteration`。
|
||||
|
||||
@@ -14,9 +14,7 @@
|
||||
|
||||
在强化学习中,agent 跟环境就是这样进行交互的,这个交互过程是可以通过马尔可夫决策过程来表示的,所以马尔可夫决策过程是强化学习里面的一个基本框架。在马尔可夫决策过程中,它的环境是 `fully observable` ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测的,但是这个部分观测的问题也可以转换成一个 MDP 的问题。
|
||||
|
||||

|
||||
|
||||
在介绍马尔可夫决策过程之前,先给大家梳理一下马尔可夫、马尔可夫奖励过程。这两个过程是马尔可夫决策过程的一个基础。
|
||||
在介绍马尔可夫决策过程(Markov Decision Process,MDP)之前,先给大家梳理一下马尔可夫过程(Markov Process,MP)、马尔可夫奖励过程(Markov Reward Processes,MRP)。这两个过程是马尔可夫决策过程的一个基础。
|
||||
|
||||
## Markov Process(MP)
|
||||
|
||||
@@ -390,7 +388,7 @@ $$
|
||||
* 第一层加和就是这个叶子节点,往上走一层的话,我们就可以把未来的价值($s'$ 的价值) backup 到黑色的节点。
|
||||
* 第二层加和是对 action 进行加和。得到黑色节点的价值过后,再往上 backup 一层,就会推到根节点的价值,即当前状态的价值。
|
||||
|
||||

|
||||

|
||||
|
||||
上图是状态-价值函数的计算分解图,上图 B 计算公式为
|
||||
$$
|
||||
@@ -418,7 +416,7 @@ $$
|
||||
* 第一层加和是先把这个叶子节点从黑色节点推到这个白色的节点,进了它的这个状态。
|
||||
* 当我们到达某一个状态过后,再对这个白色节点进行一个加和,这样就把它重新推回到当前时刻的一个 Q 函数。
|
||||
|
||||

|
||||

|
||||
|
||||
在上图 C 中,
|
||||
$$
|
||||
@@ -741,8 +739,8 @@ $$
|
||||
|
||||
我们从另一个角度思考问题,动态规划的方法将优化问题分成两个部分:
|
||||
|
||||
* 我第一步执行的是最优的 action;
|
||||
* 我之后后继的状态每一步都按照最优的 policy 去做,那么我最后的结果就是最优的。
|
||||
* 第一步执行的是最优的 action;
|
||||
* 之后后继的状态每一步都按照最优的 policy 去做,那么我最后的结果就是最优的。
|
||||
|
||||
**Principle of Optimality Theorem**:
|
||||
|
||||
@@ -798,7 +796,7 @@ $$
|
||||
|
||||

|
||||
|
||||
* **现在进行 policy improvement,按 policy update。**按这个 policy update 过后,你可以发现有些格子里面的 policy 已经产生变化。
|
||||
* **现在进行 policy improvement,点一下 policy update。**点一下 policy update 过后,你可以发现有些格子里面的 policy 已经产生变化。
|
||||
* 比如说对于中间这个 -1 的这个状态,它的最佳策略是往下走。当你到达这个状态后,你应该往下,这样就会得到最佳的这个值。
|
||||
* 绿色右边的这个方块的策略也改变了,它现在选取的最佳策略是往左走,也就是说在这个状态的时候,最佳策略应该是往左走。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user