fix ch2 typos

2020-10-21 16:58:55 +08:00
parent 5655f09588
commit 5b7aca7333
1 changed files with 68 additions and 68 deletions
@@ -18,7 +18,7 @@

 ## 2 Questions

- 为什么在马尔可夫奖励过程（MRP）中需要有**discounted factor**?
+- 为什么在马尔可夫奖励过程（MRP）中需要有**discount factor**?

  答：

@@ -28,7 +28,7 @@
  4. 在人的行为里面来说的话，其实也是大家也是想得到立刻奖励；
  5. 还有在有些时候，这个系数也可以把它设为 0。比如说，当我们设为 0 过后，然后我们就只关注了它当前的奖励。我们也可以把它设为 1，设为 1 的话就是对未来并没有折扣，未来获得的奖励跟我们当前获得的奖励是一样的。

-  所以，这个系数其实是应该可以作为强化学习 agent 的一个 hyper parameter 来进行调整，然后就会得到不同行为的 agent。
+  所以，这个系数其实是应该可以作为强化学习 agent 的一个 hyperparameter 来进行调整，然后就会得到不同行为的 agent。

 - 为什么矩阵形式的Bellman Equation的解析解比较难解？