update chapter1.md

This commit is contained in:
qiwang067
2023-07-21 23:35:50 +08:00
parent e009758c36
commit 385d504eb2

View File

@@ -564,9 +564,9 @@ print('动作数 = {}'.format(env.action_space.n))
``` ```
由输出可知,观测是形状为 (2,) 的浮点型 np.array动作空间是取 {0,1,2} 的 int 型数值 观测是长度为 2 的数组,动作是整数,其取值范围为{0,1,2}
接下来考虑智能体。智能体往往是我们自己实现的。我们可以实现一个智能体类————SimpleAgent 类,代码如下: 接下来实现智能体来控制小车移动,对应代码如下:
```python ```python
class SimpleAgent: class SimpleAgent:
@@ -590,7 +590,7 @@ class SimpleAgent:
agent = SimpleAgent(env) agent = SimpleAgent(env)
``` ```
智能体的decide()方法实现了决策功能,而learn()方法实现了学习功能。SimpleAgent类是一个比较简单的类它只能根据给定的数学表达式进行决策不能有效学习所以它并不是一个真正意义上的强化学习智能体类。但是它用于演示智能体和环境的交互已经足够了 SimpleAgent 类的 decide()方法用于决策,learn() 方法用于学习,该智能体不是强化学习智能体,不能学习,只能根据给定的数学表达式进行决策
接下来我们试图让智能体与环境交互,代码如下。 接下来我们试图让智能体与环境交互,代码如下。