fix ch1 typos

2021-02-23 19:05:53 +08:00
parent bfde944f60
commit 598aaf7355
1 changed files with 3 additions and 3 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -448,7 +448,7 @@ for step in range(100):

 2. 初始化这个环境过后，就可以进行交互了。
 3. Agent 得到这个观测过后，它就会输出一个 action。
-4. 这个动作会被环境拿进去执行这个 step，然后环境就会往前走一步，返回新的 observation 和 reward 以及一个 flag variable 就决定你这个游戏是不是结束了。
+4. 这个动作会被环境拿进去执行这个 step，然后环境就会往前走一步，返回新的 observation、reward 以及一个 flag variable `done` ，`done` 决定这个游戏是不是结束了。

 几行代码就实现了强化学习的框架。

@@ -484,7 +484,7 @@ env.close() # 关闭环境

 注意：如果绘制了实验的图形界面窗口，那么关闭该窗口的最佳方式是调用`env.close()`。试图直接关闭图形界面窗口可能会导致内存不能释放，甚至会导致死机。

-当你执行这段代码时，机器人会完全无视那根本该立起来的杆子，驾驶着小车朝某个方向一通跑，直到不见踪影。这是因为我们还没开始训练机器人。
+当你执行这段代码时，机器人会完全无视那根本该立起来的杆子，驾驶着小车朝某个方向一通跑，直到不见踪影，这是因为我们还没开始训练机器人。

 Gym 中的小游戏，大部分都可以用一个普通的实数或者向量来充当动作。打印 `env.action_space.sample()` 的返回值，能看到输出为 1 或者 0。

@@ -588,7 +588,7 @@ class BespokeAgent:
 agent = BespokeAgent(env)
 ```

-智能体的 `decide()` 方法实现了决策功能，而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类，它只能根据给定的数学表达式进行决策，并且不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是，用于演示智能体和环境的交互已经足够了。
+智能体的 `decide()` 方法实现了决策功能，而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类，它只能根据给定的数学表达式进行决策，不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是，用于演示智能体和环境的交互已经足够了。

 接下来我们试图让智能体与环境交互，代码如下所示：