Update chapter2_questions&keywords.md

This commit is contained in:
Yiyuan Yang
2022-09-21 16:59:32 +08:00
committed by GitHub
parent 45589afc92
commit d9b7133756

View File

@@ -45,15 +45,7 @@
**2-2** 为什么矩阵形式的贝尔曼方程的解析解比较难求得?
1首先是有些马尔可夫过程是环状的它并没有终点所以我们想避免无穷的奖励
2另外我们想把不确定性也表示出来希望尽可能快地得到奖励而不是在未来的某个时刻得到奖励。
3接上一点如果这个奖励是有实际价值的我们可能更希望立刻就得到奖励而不是后面才可以得到奖励。
4还有在有些时候折扣因子也可以设为0。当它被设为0后我们就只关注它当前的奖励。我们也可以把它设为1设为1表示未来获得的奖励与当前获得的奖励是一样的。
所以,折扣因子可以作为强化学习智能体的一个超参数进行调整,然后就会得到不同行为的智能体。
通过矩阵求逆的过程,我们就可以把 $V$ 的解析解求出来。但是这个矩阵求逆的过程的复杂度是 $O(N^3)$ 所以当状态非常多的时候比如从10个状态到1000个状态到100万个状态那么当我们有100万个状态的时候转移矩阵就会是一个100万乘100万的矩阵。对于这样一个大矩阵进行求逆是非常困难的所以这种通过解析解去解的方法只能应用在很小量的马尔可夫奖励过程中
**2-3** 计算贝尔曼方程的常见方法有哪些,它们有什么区别?