fix ch1 typos

This commit is contained in:
qiwang067
2021-02-23 19:05:53 +08:00
parent bfde944f60
commit 598aaf7355

View File

@@ -448,7 +448,7 @@ for step in range(100):
2. 初始化这个环境过后,就可以进行交互了。
3. Agent 得到这个观测过后,它就会输出一个 action。
4. 这个动作会被环境拿进去执行这个 step然后环境就会往前走一步返回新的 observationreward 以及一个 flag variable 决定这个游戏是不是结束了。
4. 这个动作会被环境拿进去执行这个 step然后环境就会往前走一步返回新的 observationreward 以及一个 flag variable `done` `done` 决定这个游戏是不是结束了。
几行代码就实现了强化学习的框架。
@@ -484,7 +484,7 @@ env.close() # 关闭环境
注意:如果绘制了实验的图形界面窗口,那么关闭该窗口的最佳方式是调用`env.close()`。试图直接关闭图形界面窗口可能会导致内存不能释放,甚至会导致死机。
当你执行这段代码时,机器人会完全无视那根本该立起来的杆子,驾驶着小车朝某个方向一通跑,直到不见踪影这是因为我们还没开始训练机器人。
当你执行这段代码时,机器人会完全无视那根本该立起来的杆子,驾驶着小车朝某个方向一通跑,直到不见踪影这是因为我们还没开始训练机器人。
Gym 中的小游戏,大部分都可以用一个普通的实数或者向量来充当动作。打印 `env.action_space.sample()` 的返回值,能看到输出为 1 或者 0。
@@ -588,7 +588,7 @@ class BespokeAgent:
agent = BespokeAgent(env)
```
智能体的 `decide()` 方法实现了决策功能,而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类,它只能根据给定的数学表达式进行决策,并且不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是,用于演示智能体和环境的交互已经足够了。
智能体的 `decide()` 方法实现了决策功能,而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类,它只能根据给定的数学表达式进行决策,不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是,用于演示智能体和环境的交互已经足够了。
接下来我们试图让智能体与环境交互,代码如下所示: