fix ch2 typos
This commit is contained in:
@@ -18,7 +18,7 @@
|
||||
|
||||
## 2 Questions
|
||||
|
||||
- 为什么在马尔可夫奖励过程(MRP)中需要有**discounted factor**?
|
||||
- 为什么在马尔可夫奖励过程(MRP)中需要有**discount factor**?
|
||||
|
||||
答:
|
||||
|
||||
@@ -28,7 +28,7 @@
|
||||
4. 在人的行为里面来说的话,其实也是大家也是想得到立刻奖励;
|
||||
5. 还有在有些时候,这个系数也可以把它设为 0。比如说,当我们设为 0 过后,然后我们就只关注了它当前的奖励。我们也可以把它设为 1,设为 1 的话就是对未来并没有折扣,未来获得的奖励跟我们当前获得的奖励是一样的。
|
||||
|
||||
所以,这个系数其实是应该可以作为强化学习 agent 的一个 hyper parameter 来进行调整,然后就会得到不同行为的 agent。
|
||||
所以,这个系数其实是应该可以作为强化学习 agent 的一个 hyperparameter 来进行调整,然后就会得到不同行为的 agent。
|
||||
|
||||
- 为什么矩阵形式的Bellman Equation的解析解比较难解?
|
||||
|
||||
|
||||
Reference in New Issue
Block a user