From 7db8f9a0d82a80d3000e50620e190cbc3d2ef16a Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Thu, 12 Nov 2020 18:51:13 +0800
Subject: [PATCH] resize ch2 image

---
 docs/chapter2/chapter2.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md
index c3984ca..ceab30a 100644
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -581,7 +581,7 @@ $$
 
 在这样的环境里面，我们想计算它每一个状态的价值。我们也定义了它的 reward function，你可以看到有些状态上面有一个 R 的值。比如我们这边有些值是为负的，我们可以看到格子里面有几个 -1 的 reward，只有一个 +1 reward 的格子。在这个棋盘的中间这个位置，可以看到有一个 R 的值是 1.0，为正的一个价值函数。 所以每个状态对应了一个值，然后有一些状态没有任何值，就说明它的这个 reward function，它的奖励是为零的。
 
-![](img/2.38.png ':size=450')
+![](img/2.38.png ':size=600')
 
 我们开始做这个 policy evaluation，policy evaluation 是一个不停迭代的过程。当我们初始化的时候，所有的 $v(s)$ 都是 0。我们现在迭代一次，迭代一次过后，你发现有些状态上面，值已经产生了变化。比如有些状态的值的 R 为 -1，迭代一次过后，它就会得到 -1 的这个奖励。对于中间这个绿色的，因为它的奖励为正，所以它是 +1 的状态。