update chapter1.md

2023-07-21 23:35:50 +08:00
parent e009758c36
commit 385d504eb2
1 changed files with 3 additions and 3 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -564,9 +564,9 @@ print('动作数 = {}'.format(env.action_space.n))
 ```
-由输出可知，观测是形状为 (2,) 的浮点型 np.array，动作空间是取 {0,1,2} 的 int 型数值。
+观测是长度为 2 的数组，动作是整数，其取值范围为{0,1,2}。
-接下来考虑智能体。智能体往往是我们自己实现的。我们可以实现一个智能体类————SimpleAgent 类，代码如下：
+接下来实现智能体来控制小车移动，对应代码如下：
 ```python
 class SimpleAgent:
@@ -590,7 +590,7 @@ class SimpleAgent:
 agent = SimpleAgent(env)
 ```
-智能体的decide()方法实现了决策功能，而learn()方法实现了学习功能。SimpleAgent类是一个比较简单的类，它只能根据给定的数学表达式进行决策，不能有效学习，所以它并不是一个真正意义上的强化学习智能体类。但是，它用于演示智能体和环境的交互已经足够了。
+SimpleAgent 类的 decide()方法用于决策，learn() 方法用于学习，该智能体不是强化学习智能体，不能学习，只能根据给定的数学表达式进行决策。
 接下来我们试图让智能体与环境交互，代码如下。