update chapter1.md
This commit is contained in:
@@ -564,9 +564,9 @@ print('动作数 = {}'.format(env.action_space.n))
|
|||||||
```
|
```
|
||||||
|
|
||||||
|
|
||||||
由输出可知,观测是形状为 (2,) 的浮点型 np.array,动作空间是取 {0,1,2} 的 int 型数值。
|
观测是长度为 2 的数组,动作是整数,其取值范围为{0,1,2}。
|
||||||
|
|
||||||
接下来考虑智能体。智能体往往是我们自己实现的。我们可以实现一个智能体类————SimpleAgent 类,代码如下:
|
接下来实现智能体来控制小车移动,对应代码如下:
|
||||||
|
|
||||||
```python
|
```python
|
||||||
class SimpleAgent:
|
class SimpleAgent:
|
||||||
@@ -590,7 +590,7 @@ class SimpleAgent:
|
|||||||
agent = SimpleAgent(env)
|
agent = SimpleAgent(env)
|
||||||
```
|
```
|
||||||
|
|
||||||
智能体的decide()方法实现了决策功能,而learn()方法实现了学习功能。SimpleAgent类是一个比较简单的类,它只能根据给定的数学表达式进行决策,不能有效学习,所以它并不是一个真正意义上的强化学习智能体类。但是,它用于演示智能体和环境的交互已经足够了。
|
SimpleAgent 类的 decide()方法用于决策,learn() 方法用于学习,该智能体不是强化学习智能体,不能学习,只能根据给定的数学表达式进行决策。
|
||||||
|
|
||||||
接下来我们试图让智能体与环境交互,代码如下。
|
接下来我们试图让智能体与环境交互,代码如下。
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user