diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md
index 391ebd9..39a86da 100644
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -138,9 +138,7 @@
 
 ### Reward
 
-**奖励是由环境给的一个标量的反馈信号(scalar feedback signal)**。
-
-这个信号显示了 agent 在某一步采取了某个策略的表现如何。
+奖励是由环境给的一个标量的反馈信号(scalar feedback signal)，这个信号显示了 agent 在某一步采取了某个策略的表现如何。
 
 强化学习的目的就是为了最大化 agent 可以获得的奖励，agent 在这个环境里面存在的目的就是为了极大化它的期望的累积奖励(expected cumulative reward)。
 
diff --git a/docs/chapter1/img/1.2.png b/docs/chapter1/img/1.2.png
index ce74de3..999fe6f 100644
Binary files a/docs/chapter1/img/1.2.png and b/docs/chapter1/img/1.2.png differ
diff --git a/docs/chapter1/img/1.4.png b/docs/chapter1/img/1.4.png
index cba2d63..a8a7da7 100644
Binary files a/docs/chapter1/img/1.4.png and b/docs/chapter1/img/1.4.png differ