fix some typos

This commit is contained in:
qiwang067
2020-10-18 22:19:43 +08:00
parent 339b097cca
commit 73f2f8a321

View File

@@ -259,7 +259,7 @@ MDP 的 `prediction` 和 `control` 是 MDP 里面的核心问题。
接着是**控制问题**:在控制问题中,问题背景与预测问题相同,唯一的区别就是:不再限制 policy。也就是说行为模式是未知的我们要自己确定。所以我们通过解决控制问题求得每一个状态的最优的 value function如上图 b 所示),也得到了最优的 policy如上图 c 所示)。 接着是**控制问题**:在控制问题中,问题背景与预测问题相同,唯一的区别就是:不再限制 policy。也就是说行为模式是未知的我们要自己确定。所以我们通过解决控制问题求得每一个状态的最优的 value function如上图 b 所示),也得到了最优的 policy如上图 c 所示)。
简单总结下,控制问题要做的问题就是,给定同样的条件,在所有可能的策略下最优的价值函数是什么?最优策略是什么? 简单总结下,控制问题要做的就是,给定同样的条件,在所有可能的策略下最优的价值函数是什么?最优策略是什么?
![](img/2.32.png) ![](img/2.32.png)