diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index d2438b4..e2deba6 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -259,7 +259,7 @@ MDP 的 `prediction` 和 `control` 是 MDP 里面的核心问题。 接着是**控制问题**:在控制问题中,问题背景与预测问题相同,唯一的区别就是:不再限制 policy。也就是说行为模式是未知的,我们要自己确定。所以我们通过解决控制问题,求得每一个状态的最优的 value function(如上图 b 所示),也得到了最优的 policy(如上图 c 所示)。 -简单总结下,控制问题要做的问题就是,给定同样的条件,在所有可能的策略下最优的价值函数是什么?最优策略是什么? +简单总结下,控制问题要做的就是,给定同样的条件,在所有可能的策略下最优的价值函数是什么?最优策略是什么? ![](img/2.32.png)