diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index 59452dd..de44079 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -564,9 +564,9 @@ print('动作数 = {}'.format(env.action_space.n)) ``` -由输出可知,观测是形状为 (2,) 的浮点型 np.array,动作空间是取 {0,1,2} 的 int 型数值。 +观测是长度为 2 的数组,动作是整数,其取值范围为{0,1,2}。 -接下来考虑智能体。智能体往往是我们自己实现的。我们可以实现一个智能体类————SimpleAgent 类,代码如下: +接下来实现智能体来控制小车移动,对应代码如下: ```python class SimpleAgent: @@ -590,7 +590,7 @@ class SimpleAgent: agent = SimpleAgent(env) ``` -智能体的decide()方法实现了决策功能,而learn()方法实现了学习功能。SimpleAgent类是一个比较简单的类,它只能根据给定的数学表达式进行决策,不能有效学习,所以它并不是一个真正意义上的强化学习智能体类。但是,它用于演示智能体和环境的交互已经足够了。 +SimpleAgent 类的 decide()方法用于决策,learn() 方法用于学习,该智能体不是强化学习智能体,不能学习,只能根据给定的数学表达式进行决策。 接下来我们试图让智能体与环境交互,代码如下。