fix ch1 typos

This commit is contained in:
qiwang067
2020-11-19 20:30:25 +08:00
parent be103b9dbe
commit 8a343520bc

View File

@@ -380,7 +380,7 @@ Learning 和 Planning 是序列决策的两个基本问题。
### K-armed Bandit
![](img/1.39.png)
一般监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作。需注意的是,即便在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作。
与监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作。需注意的是,即便在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作。
想要最大化单步奖赏需考虑两个方面:一是需知道每个动作带来的奖赏,二是要执行奖赏最大的动作。若每个动作对应的奖赏是一个确定值,那么尝试遍所有的动作便能找出奖赏最大的动作。然而,更一般的情形是,一个动作的奖赏值是来自于一个概率分布,仅通过一次尝试并不能确切地获得平均奖赏值。
@@ -404,11 +404,11 @@ Learning 和 Planning 是序列决策的两个基本问题。
![](img/1.42.png)
你可以直接调用现有的包来实践。现在有很多深度学习的包可以用,熟练使用这里面的两三种,其实已经可以实现非常多的功能。所以你并不需要从头去造轮子,就直接调用它里面的函数去实现你想实现的功能
你可以直接调用现有的包来实践。现在有很多深度学习的包可以用,熟练使用这里面的两三种,可以实现非常多的功能。所以你并不需要从头去造轮子。
![](img/1.43.png)
[ OpenAI](https://openai.com/) 是一个非盈利的人工智能研究公司。Open AI 公布了非常多的学习资源以及这个算法资源,他们之所以叫 Open AI就是他们把所有开发的算法都 open source 出来。
[ OpenAI](https://openai.com/) 是一个非盈利的人工智能研究公司。Open AI 公布了非常多的学习资源以及算法资源,他们之所以叫 Open AI就是他们把所有开发的算法都 open source 出来。
### Gym
@@ -449,7 +449,11 @@ $python
![](img/1.47.png)
这里我们看一下 CartPole 的这个环境。对于这个环境有两个动作Cart 往左移还是往右移。这里得到了观测:这个车当前的位置Cart 当前的往左往右移的速度,这个杆的角度以及它的杆的最高点的速度。
这里我们看一下 CartPole 的这个环境。对于这个环境有两个动作Cart 往左移还是往右移。这里得到了观测:
* 这个车当前的位置,
* Cart 当前往左往右移的速度,
* 这个杆的角度以及杆的最高点的速度。
如果 observation 越详细,就可以更好地描述当前这个所有的状态。这里有 reward 的定义,如果能多保留一步,你就会得到一个奖励,所以你需要在尽可能多的时间存活来得到更多的奖励。当这个杆的角度大于某一个角度(没能保持平衡)或者这个车已经出到外面的时候,游戏就结束了,你就输了。所以这个 agent 的目的就是为了控制木棍,让它尽可能地保持平衡以及尽可能保持在这个环境的中央。