diff --git a/docs/chapter2/chapter2_questions&keywords.md b/docs/chapter2/chapter2_questions&keywords.md index fa96903..3b9bc6b 100644 --- a/docs/chapter2/chapter2_questions&keywords.md +++ b/docs/chapter2/chapter2_questions&keywords.md @@ -45,15 +45,7 @@ **2-2** 为什么矩阵形式的贝尔曼方程的解析解比较难求得? -(1)首先,是有些马尔可夫过程是环状的,它并没有终点,所以我们想避免无穷的奖励。 - -(2)另外,我们想把不确定性也表示出来,希望尽可能快地得到奖励,而不是在未来的某个时刻得到奖励。 - -(3)接上一点,如果这个奖励是有实际价值的,我们可能更希望立刻就得到奖励,而不是后面才可以得到奖励。 - -(4)还有,在有些时候,折扣因子也可以设为0。当它被设为0后,我们就只关注它当前的奖励。我们也可以把它设为1,设为1表示未来获得的奖励与当前获得的奖励是一样的。 - -所以,折扣因子可以作为强化学习智能体的一个超参数进行调整,然后就会得到不同行为的智能体。 +通过矩阵求逆的过程,我们就可以把 $V$ 的解析解求出来。但是这个矩阵求逆的过程的复杂度是 $O(N^3)$ ,所以当状态非常多的时候,比如从10个状态到1000个状态,到100万个状态,那么当我们有100万个状态的时候,转移矩阵就会是一个100万乘100万的矩阵。对于这样一个大矩阵进行求逆是非常困难的,所以这种通过解析解去解的方法,只能应用在很小量的马尔可夫奖励过程中。 **2-3** 计算贝尔曼方程的常见方法有哪些,它们有什么区别?