From 2032f9febb53ab66266690b76a3a0c4709cf3c33 Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Wed, 11 Nov 2020 22:34:51 +0800
Subject: [PATCH] resize image size

---
 docs/chapter3/chapter3.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/chapter3/chapter3.md b/docs/chapter3/chapter3.md
index 6a48aa0..8ee66d6 100644
--- a/docs/chapter3/chapter3.md
+++ b/docs/chapter3/chapter3.md
@@ -225,7 +225,7 @@ MC 是通过 empirical mean return （实际得到的收益）来更新它，对
 
 **为了让大家更加直观感受下一个状态影响上一个状态**，我们推荐这个网站：[Temporal Difference Learning Gridworld Demo](https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_td.html)。
 
-![](img/3.13.png ':size=800x800')
+![](img/3.13.png ':size=500')
 
 * 我们先初始化一下，然后开始时序差分的更新过程。
 * 在训练的过程中，你会看到这个小黄球在不断地试错，在探索当中会先迅速地发现有 reward 的地方。最开始的时候，只是这些有 reward 的格子才有价值。当不断地重复走这些路线的时候，这些有价值的格子可以去慢慢地影响它附近的格子的价值。