fix some typos

2020-10-18 22:19:43 +08:00
parent 339b097cca
commit 73f2f8a321
1 changed files with 1 additions and 1 deletions
@@ -259,7 +259,7 @@ MDP 的 `prediction` 和 `control` 是 MDP 里面的核心问题。

 接着是**控制问题**：在控制问题中，问题背景与预测问题相同，唯一的区别就是：不再限制 policy。也就是说行为模式是未知的，我们要自己确定。所以我们通过解决控制问题，求得每一个状态的最优的 value function（如上图 b 所示），也得到了最优的 policy（如上图 c 所示）。

-简单总结下，控制问题要做的问题就是，给定同样的条件，在所有可能的策略下最优的价值函数是什么？最优策略是什么？
+简单总结下，控制问题要做的就是，给定同样的条件，在所有可能的策略下最优的价值函数是什么？最优策略是什么？

 ![](img/2.32.png)