resize image size

2020-11-11 22:10:21 +08:00
parent ef1eaa02a7
commit 11f6d4059f
2 changed files with 18 additions and 15 deletions
--- a/docs/chapter3/chapter3.md
+++ b/docs/chapter3/chapter3.md
@@ -225,7 +225,7 @@ MC 是通过 empirical mean return （实际得到的收益）来更新它，对

 **为了让大家更加直观感受下一个状态影响上一个状态**，我们推荐这个网站：[Temporal Difference Learning Gridworld Demo](https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_td.html)。

-![](img/3.13.png ':size=50%')
+![](img/3.13.png ':size=70%')

 * 我们先初始化一下，然后开始时序差分的更新过程。
 * 在训练的过程中，你会看到这个小黄球在不断地试错，在探索当中会先迅速地发现有 reward 的地方。最开始的时候，只是这些有 reward 的格子才有价值。当不断地重复走这些路线的时候，这些有价值的格子可以去慢慢地影响它附近的格子的价值。
@@ -548,6 +548,9 @@ Sarsa 是用自己的策略产生了 S,A,R,S',A' 这一条轨迹。然后拿着
 * 比较 Q-learning 和 Sarsa 的更新公式可以发现，Sarsa 并没有选取最大值的 max 操作，因此，
  * Q-learning 是一个非常激进的算法，希望每一步都获得最大的利益；
  * 而 Sarsa 则相对非常保守，会选择一条相对安全的迭代路线。
+
+
+
 ## Summary
 ![](img/3.21.png)