fix some errors

2020-07-17 22:20:34 +08:00
parent a3ba2f3e03
commit 9493c674b4
1 changed files with 9 additions and 2 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -110,7 +110,7 @@
 ### Agent and Environment

 ![](img/1.18.png)
-接下来我们讲`序列决策过程`。强化学习研究的问题 是 agent 跟环境交互，这幅图左边画的是一个 agent，agent 一直在跟环境进行交互。这个agent 把它输出的动作给环境，然后环境取得这个动作过后，会进行到下一步，然后会把下一步的观测跟它上一步是否得到奖励返还给 agent。通过这样的交互过程，然后会产生很多观测，agent 就是为了从这些观测之中学到能极大化奖励的策略。
+接下来我们讲`序列决策(Sequential Decision Making)过程`。强化学习研究的问题 是 agent 跟环境交互，这幅图左边画的是一个 agent，agent 一直在跟环境进行交互。这个agent 把它输出的动作给环境，然后环境取得这个动作过后，会进行到下一步，然后会把下一步的观测跟它上一步是否得到奖励返还给 agent。通过这样的交互过程，然后会产生很多观测，agent 就是为了从这些观测之中学到能极大化奖励的策略。

 ### Reward

@@ -154,7 +154,12 @@ POMDP 可以用一个 7 元组描述：$(S,A,T,R,\Omega,O,\gamma)$，其中 $S$

 ## Action Spaces

-不同的环境允许不同种类的动作。在给定的环境中，有效动作的集合经常被称为`动作空间(action space)`。像 Atari 和 Go 这样的环境有`离散动作空间(discrete action spaces)`，在这个动作空间里，agent 只有有限数量的移动。在其他环境，比如 agent 在物理世界控制一个 agent，在这个环境中就有`连续动作空间(continuous action spaces)` 。在连续空间中，动作是实值的向量。 
+不同的环境允许不同种类的动作。在给定的环境中，有效动作的集合经常被称为`动作空间(action space)`。像 Atari 和 Go 这样的环境有`离散动作空间(discrete action spaces)`，在这个动作空间里，agent 的动作数量是有限的。在其他环境，比如在物理世界中控制一个 agent，在这个环境中就有`连续动作空间(continuous action spaces)` 。在连续空间中，动作是实值的向量。 
+
+例如，
+
+* 走迷宫机器人如果只有东南西北这 4 种移动方式，则其为离散动作空间；
+* 如果机器人向 $360^{\circ}$ 中的任意角度都可以移动，则为连续动作空间。

 ## Major Components of an RL Agent 

@@ -543,6 +548,8 @@ print('平均回合奖励 = {}'.format(np.mean(episode_rewards)))

 测试 agent 在 Gym 库中某个任务的性能时，学术界一般最关心 100 个回合的平均回合奖励。至于为什么是 100 个回合而不是其他回合数（比如 128 个回合），完全是习惯使然，没有什么特别的原因。对于有些环境，还会指定一个参考的回合奖励值，当连续 100 个回合的奖励大于指定的值时，就认为这个任务被解决了。但是，并不是所有的任务都指定了这样的值。对于没有指定值的任务，就无所谓任务被解决了或者没有被解决。

+总结一下 Gym 的用法：使用 `env=gym.make(环境名)` 取出环境，使用 `env.reset()`初始化环境，使用`env.step(动作)`执行一步环境，使用 `env.render()`显示环境，使用 `env.close()` 关闭环境。
+
 最后提一下，Gym 有对应的[官方文档](https://gym.openai.com/docs/)，大家可以阅读文档来学习 Gym。

 ##  References