Update chapter2_questions&keywords.md

2022-09-21 16:59:32 +08:00
parent 45589afc92
commit d9b7133756
1 changed files with 1 additions and 9 deletions
@@ -45,15 +45,7 @@

 **2-2** 为什么矩阵形式的贝尔曼方程的解析解比较难求得？

-（1）首先，是有些马尔可夫过程是环状的，它并没有终点，所以我们想避免无穷的奖励。
-
-（2）另外，我们想把不确定性也表示出来，希望尽可能快地得到奖励，而不是在未来的某个时刻得到奖励。
-
-（3）接上一点，如果这个奖励是有实际价值的，我们可能更希望立刻就得到奖励，而不是后面才可以得到奖励。
-
-（4）还有，在有些时候，折扣因子也可以设为0。当它被设为0后，我们就只关注它当前的奖励。我们也可以把它设为1，设为1表示未来获得的奖励与当前获得的奖励是一样的。
-
-所以，折扣因子可以作为强化学习智能体的一个超参数进行调整，然后就会得到不同行为的智能体。
+通过矩阵求逆的过程，我们就可以把 $V$ 的解析解求出来。但是这个矩阵求逆的过程的复杂度是 $O(N^3)$ ，所以当状态非常多的时候，比如从10个状态到1000个状态，到100万个状态，那么当我们有100万个状态的时候，转移矩阵就会是一个100万乘100万的矩阵。对于这样一个大矩阵进行求逆是非常困难的，所以这种通过解析解去解的方法，只能应用在很小量的马尔可夫奖励过程中。

 **2-3** 计算贝尔曼方程的常见方法有哪些，它们有什么区别？