fix ch2 typos

This commit is contained in:
qiwang067
2020-10-21 16:58:55 +08:00
parent 5655f09588
commit 5b7aca7333

View File

@@ -18,7 +18,7 @@
## 2 Questions
- 为什么在马尔可夫奖励过程MRP中需要有**discounted factor**?
- 为什么在马尔可夫奖励过程MRP中需要有**discount factor**?
答:
@@ -28,7 +28,7 @@
4. 在人的行为里面来说的话,其实也是大家也是想得到立刻奖励;
5. 还有在有些时候,这个系数也可以把它设为 0。比如说当我们设为 0 过后,然后我们就只关注了它当前的奖励。我们也可以把它设为 1设为 1 的话就是对未来并没有折扣,未来获得的奖励跟我们当前获得的奖励是一样的。
所以,这个系数其实是应该可以作为强化学习 agent 的一个 hyper parameter 来进行调整,然后就会得到不同行为的 agent。
所以,这个系数其实是应该可以作为强化学习 agent 的一个 hyperparameter 来进行调整,然后就会得到不同行为的 agent。
- 为什么矩阵形式的Bellman Equation的解析解比较难解