fix ch2 typos

This commit is contained in:
qiwang067
2020-08-31 22:15:52 +08:00
parent 975dda0812
commit d23a88dc9c

View File

@@ -5,8 +5,8 @@
这节课我会给大家介绍马尔可夫决策过程。
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程。
* 第二部分,我会给大家介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。
* 第三部分,我会给大家介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration``value iteration`
* 第二部分介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。
* 第三部分介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration``value iteration`
![](img/2.2.png)
@@ -18,7 +18,7 @@
## Markov Process(MP)
![](img/2.4.png)如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。比如说我们这里有一个 $h_t$,它包含了之前的所有状态。但是这里的转移从当前 $s_t$ 转到 $s_{t+1}$ 这个状态,它是直接就等于它之前所有的状态。如果某一个过程满足`马尔可夫性质(Markov Property)`,就是说未来的转移跟过去是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。
![](img/2.4.png)如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。比如说我们这里有一个 $h_t$,它包含了之前的所有状态。但是这里的转移从当前 $s_t$ 转到 $s_{t+1}$ 这个状态,它是直接就等于它之前所有的状态。如果某一个过程满足`马尔可夫性质(Markov Property)`,就是说未来的转移跟过去是独立的,它只取决于现在。**马尔可夫性质是所有马尔可夫过程的基础。**
![](img/2.5.png)
@@ -178,7 +178,7 @@ $$
接下来给大家介绍 MDP 的 `prediction``control`,这两个问题是 MDP 里面的核心问题。
* Prediction 的意思是说给定一个 MDP 以及一个 policy $\pi$ ,去计算它的 value function就等于每个状态它的价值函数是多少。
* Prediction 是说给定一个 MDP 以及一个 policy $\pi$ ,去计算它的 value function就等于每个状态它的价值函数是多少。
* Control 这个问题是说我们去寻找一个最佳的一个策略,它的 input 就是MDP输出是通过去寻找它的最佳策略然后同时输出它的最佳价值函数(optimal value function)以及它的这个最佳策略(optimal policy)。
* 在 MDP 里面prediction 和 control 都可以通过这个动态规划去解决。
@@ -218,7 +218,7 @@ $$
![](img/2.39.png)
所以当迭代第一次的时候,然后我们 $v(s)$ 某些状态已经有些值的变化。
所以当迭代第一次的时候,我们 $v(s)$ 某些状态已经有些值的变化。
![](img/2.40.png)