fix some typos
This commit is contained in:
@@ -259,7 +259,7 @@ MDP 的 `prediction` 和 `control` 是 MDP 里面的核心问题。
|
||||
|
||||
接着是**控制问题**:在控制问题中,问题背景与预测问题相同,唯一的区别就是:不再限制 policy。也就是说行为模式是未知的,我们要自己确定。所以我们通过解决控制问题,求得每一个状态的最优的 value function(如上图 b 所示),也得到了最优的 policy(如上图 c 所示)。
|
||||
|
||||
简单总结下,控制问题要做的问题就是,给定同样的条件,在所有可能的策略下最优的价值函数是什么?最优策略是什么?
|
||||
简单总结下,控制问题要做的就是,给定同样的条件,在所有可能的策略下最优的价值函数是什么?最优策略是什么?
|
||||
|
||||

|
||||
|
||||
|
||||
Reference in New Issue
Block a user