fix some errors

This commit is contained in:
qiwang067
2020-07-17 22:20:34 +08:00
parent a3ba2f3e03
commit 9493c674b4

View File

@@ -110,7 +110,7 @@
### Agent and Environment
![](img/1.18.png)
接下来我们讲`序列决策过程`。强化学习研究的问题 是 agent 跟环境交互,这幅图左边画的是一个 agentagent 一直在跟环境进行交互。这个agent 把它输出的动作给环境,然后环境取得这个动作过后,会进行到下一步,然后会把下一步的观测跟它上一步是否得到奖励返还给 agent。通过这样的交互过程然后会产生很多观测agent 就是为了从这些观测之中学到能极大化奖励的策略。
接下来我们讲`序列决策(Sequential Decision Making)过程`。强化学习研究的问题 是 agent 跟环境交互,这幅图左边画的是一个 agentagent 一直在跟环境进行交互。这个agent 把它输出的动作给环境,然后环境取得这个动作过后,会进行到下一步,然后会把下一步的观测跟它上一步是否得到奖励返还给 agent。通过这样的交互过程然后会产生很多观测agent 就是为了从这些观测之中学到能极大化奖励的策略。
### Reward
@@ -154,7 +154,12 @@ POMDP 可以用一个 7 元组描述:$(S,A,T,R,\Omega,O,\gamma)$,其中 $S$
## Action Spaces
不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为`动作空间(action space)`。像 Atari 和 Go 这样的环境有`离散动作空间(discrete action spaces)`在这个动作空间里agent 只有有限数量的移动。在其他环境,比如 agent 在物理世界控制一个 agent在这个环境中就有`连续动作空间(continuous action spaces)` 。在连续空间中,动作是实值的向量。
不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为`动作空间(action space)`。像 Atari 和 Go 这样的环境有`离散动作空间(discrete action spaces)`在这个动作空间里agent 的动作数量是有限的。在其他环境,比如在物理世界控制一个 agent在这个环境中就有`连续动作空间(continuous action spaces)` 。在连续空间中,动作是实值的向量。
例如,
* 走迷宫机器人如果只有东南西北这 4 种移动方式,则其为离散动作空间;
* 如果机器人向 $360^{\circ}$ 中的任意角度都可以移动,则为连续动作空间。
## Major Components of an RL Agent
@@ -543,6 +548,8 @@ print('平均回合奖励 = {}'.format(np.mean(episode_rewards)))
测试 agent 在 Gym 库中某个任务的性能时,学术界一般最关心 100 个回合的平均回合奖励。至于为什么是 100 个回合而不是其他回合数(比如 128 个回合),完全是习惯使然,没有什么特别的原因。对于有些环境,还会指定一个参考的回合奖励值,当连续 100 个回合的奖励大于指定的值时,就认为这个任务被解决了。但是,并不是所有的任务都指定了这样的值。对于没有指定值的任务,就无所谓任务被解决了或者没有被解决。
总结一下 Gym 的用法:使用 `env=gym.make(环境名)` 取出环境,使用 `env.reset()`初始化环境,使用`env.step(动作)`执行一步环境,使用 `env.render()`显示环境,使用 `env.close()` 关闭环境。
最后提一下Gym 有对应的[官方文档](https://gym.openai.com/docs/),大家可以阅读文档来学习 Gym。
## References