fix ch1 typos
This commit is contained in:
@@ -448,7 +448,7 @@ for step in range(100):
|
||||
|
||||
2. 初始化这个环境过后,就可以进行交互了。
|
||||
3. Agent 得到这个观测过后,它就会输出一个 action。
|
||||
4. 这个动作会被环境拿进去执行这个 step,然后环境就会往前走一步,返回新的 observation 和 reward 以及一个 flag variable 就决定你这个游戏是不是结束了。
|
||||
4. 这个动作会被环境拿进去执行这个 step,然后环境就会往前走一步,返回新的 observation、reward 以及一个 flag variable `done` ,`done` 决定这个游戏是不是结束了。
|
||||
|
||||
几行代码就实现了强化学习的框架。
|
||||
|
||||
@@ -484,7 +484,7 @@ env.close() # 关闭环境
|
||||
|
||||
注意:如果绘制了实验的图形界面窗口,那么关闭该窗口的最佳方式是调用`env.close()`。试图直接关闭图形界面窗口可能会导致内存不能释放,甚至会导致死机。
|
||||
|
||||
当你执行这段代码时,机器人会完全无视那根本该立起来的杆子,驾驶着小车朝某个方向一通跑,直到不见踪影。这是因为我们还没开始训练机器人。
|
||||
当你执行这段代码时,机器人会完全无视那根本该立起来的杆子,驾驶着小车朝某个方向一通跑,直到不见踪影,这是因为我们还没开始训练机器人。
|
||||
|
||||
Gym 中的小游戏,大部分都可以用一个普通的实数或者向量来充当动作。打印 `env.action_space.sample()` 的返回值,能看到输出为 1 或者 0。
|
||||
|
||||
@@ -588,7 +588,7 @@ class BespokeAgent:
|
||||
agent = BespokeAgent(env)
|
||||
```
|
||||
|
||||
智能体的 `decide()` 方法实现了决策功能,而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类,它只能根据给定的数学表达式进行决策,并且不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是,用于演示智能体和环境的交互已经足够了。
|
||||
智能体的 `decide()` 方法实现了决策功能,而 `learn()` 方法实现了学习功能。`BespokeAgent`类是一个比较简单的类,它只能根据给定的数学表达式进行决策,不能有效学习。所以它并不是一个真正意义上的强化学习智能体类。但是,用于演示智能体和环境的交互已经足够了。
|
||||
|
||||
接下来我们试图让智能体与环境交互,代码如下所示:
|
||||
|
||||
|
||||
Reference in New Issue
Block a user