From 598aaf735541ad9a669f32d4c5afffa401e3ac25 Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Tue, 23 Feb 2021 19:05:53 +0800
Subject: [PATCH] fix ch1 typos

---
 docs/chapter1/chapter1.md | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md
index 598fa8e..7c62e00 100644
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -448,7 +448,7 @@ for step in range(100):
 
 2. 初始化这个环境过后，就可以进行交互了。
 3. Agent 得到这个观测过后，它就会输出一个 action。
-4. 这个动作会被环境拿进去执行这个 step，然后环境就会往前走一步，返回新的 observation 和 reward 以及一个 flag variable 就决定你这个游戏是不是结束了。
+4. 这个动作会被环境拿进去执行这个 step，然后环境就会往前走一步，返回新的 observation、reward 以及一个 flag variable `done` ，`done` 决定这个游戏是不是结束了。
 
 几行代码就实现了强化学习的框架。
 
@@ -484,7 +484,7 @@ env.close() # 关闭环境
 
 注意：如果绘制了实验的图形界面窗口，那么关闭该窗口的最佳方式是调用`env.close()`。试图直接关闭图形界面窗口可能会导致内存不能释放，甚至会导致死机。
 
-当你执行这段代码时，机器人会完全无视那根本该立起来的杆子，驾驶着小车朝某个方向一通跑，直到不见踪影。这是因为我们还没开始训练机器人。
+当你执行这段代码时，机器人会完全无视那根本该立起来的杆子，驾驶着小车朝某个方向一通跑，直到不见踪影，这是因为我们还没开始训练机器人。
 
 Gym 中的小游戏，大部分都可以用一个普通的实数或者向量来充当动作。打印 `env.action_space.sample()` 的返回值，能看到输出为 1 或者 0。
 
@@ -588,7 +588,7 @@ class BespokeAgent:
 agent = BespokeAgent(env)
 ```
 
-智能体的 `decide()` 方法实现了决策功能，而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类，它只能根据给定的数学表达式进行决策，并且不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是，用于演示智能体和环境的交互已经足够了。
+智能体的 `decide()` 方法实现了决策功能，而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类，它只能根据给定的数学表达式进行决策，不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是，用于演示智能体和环境的交互已经足够了。
 
 接下来我们试图让智能体与环境交互，代码如下所示：