From 598aaf735541ad9a669f32d4c5afffa401e3ac25 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Tue, 23 Feb 2021 19:05:53 +0800 Subject: [PATCH] fix ch1 typos --- docs/chapter1/chapter1.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index 598fa8e..7c62e00 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -448,7 +448,7 @@ for step in range(100): 2. 初始化这个环境过后,就可以进行交互了。 3. Agent 得到这个观测过后,它就会输出一个 action。 -4. 这个动作会被环境拿进去执行这个 step,然后环境就会往前走一步,返回新的 observation 和 reward 以及一个 flag variable 就决定你这个游戏是不是结束了。 +4. 这个动作会被环境拿进去执行这个 step,然后环境就会往前走一步,返回新的 observation、reward 以及一个 flag variable `done` ,`done` 决定这个游戏是不是结束了。 几行代码就实现了强化学习的框架。 @@ -484,7 +484,7 @@ env.close() # 关闭环境 注意:如果绘制了实验的图形界面窗口,那么关闭该窗口的最佳方式是调用`env.close()`。试图直接关闭图形界面窗口可能会导致内存不能释放,甚至会导致死机。 -当你执行这段代码时,机器人会完全无视那根本该立起来的杆子,驾驶着小车朝某个方向一通跑,直到不见踪影。这是因为我们还没开始训练机器人。 +当你执行这段代码时,机器人会完全无视那根本该立起来的杆子,驾驶着小车朝某个方向一通跑,直到不见踪影,这是因为我们还没开始训练机器人。 Gym 中的小游戏,大部分都可以用一个普通的实数或者向量来充当动作。打印 `env.action_space.sample()` 的返回值,能看到输出为 1 或者 0。 @@ -588,7 +588,7 @@ class BespokeAgent: agent = BespokeAgent(env) ``` -智能体的 `decide()` 方法实现了决策功能,而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类,它只能根据给定的数学表达式进行决策,并且不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是,用于演示智能体和环境的交互已经足够了。 +智能体的 `decide()` 方法实现了决策功能,而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类,它只能根据给定的数学表达式进行决策,不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是,用于演示智能体和环境的交互已经足够了。 接下来我们试图让智能体与环境交互,代码如下所示: