resize image size

This commit is contained in:
qiwang067
2020-11-11 22:10:21 +08:00
parent ef1eaa02a7
commit 11f6d4059f
2 changed files with 18 additions and 15 deletions

View File

@@ -225,7 +225,7 @@ MC 是通过 empirical mean return (实际得到的收益)来更新它,对
**为了让大家更加直观感受下一个状态影响上一个状态**,我们推荐这个网站:[Temporal Difference Learning Gridworld Demo](https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_td.html)。
![](img/3.13.png ':size=50%')
![](img/3.13.png ':size=70%')
* 我们先初始化一下,然后开始时序差分的更新过程。
* 在训练的过程中,你会看到这个小黄球在不断地试错,在探索当中会先迅速地发现有 reward 的地方。最开始的时候,只是这些有 reward 的格子才有价值。当不断地重复走这些路线的时候,这些有价值的格子可以去慢慢地影响它附近的格子的价值。
@@ -548,6 +548,9 @@ Sarsa 是用自己的策略产生了 S,A,R,S',A' 这一条轨迹。然后拿着
* 比较 Q-learning 和 Sarsa 的更新公式可以发现Sarsa 并没有选取最大值的 max 操作,因此,
* Q-learning 是一个非常激进的算法,希望每一步都获得最大的利益;
* 而 Sarsa 则相对非常保守,会选择一条相对安全的迭代路线。
## Summary
![](img/3.21.png)