From bda25e4fc4eff725ed4d4ee096b708c1874ce9da Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Tue, 25 May 2021 20:45:45 +0800
Subject: [PATCH] fix ch1

---
 docs/chapter1/chapter1.md | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md
index e5f58e3..f478465 100644
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -378,7 +378,7 @@ Learning 和 Planning 是序列决策的两个基本问题。
   *  探索：你可能尝试一些新的招式，有可能你会发出大招来，这样就可能一招毙命。
 
 ### K-armed Bandit
-![](img/1.39.png ':size=300')
+![](img/1.39.png ':size=280')
 
 与监督学习不同，强化学习任务的最终奖赏是在多步动作之后才能观察到，这里我们不妨先考虑比较简单的情形：最大化单步奖赏，即仅考虑一步操作。需注意的是，即便在这样的简化情形下，强化学习仍与监督学习有显著不同，因为机器需通过尝试来发现各个动作产生的结果，而没有训练数据告诉机器应当做哪个动作。
 
@@ -450,6 +450,7 @@ for step in range(100):
 几行代码就实现了强化学习的框架。
 
 ![](img/1.46.png ':size=300')
+
 在 OpenAI Gym 里面有很经典的控制类游戏。
 
 * 比如说 Acrobot 就是把两节铁杖甩了立起来。