fix ch1 typos
This commit is contained in:
@@ -33,7 +33,7 @@
|
||||
|
||||
强化学习的训练数据就是这样一个玩游戏的过程。你从第一步开始,采取一个决策,比如说你把这个往右移,接到这个球了。第二步你又做出决策,得到的训练数据是一个玩游戏的序列。
|
||||
|
||||
比如现在是在第三步,你把这个序列放进去,你希望这个网络可以输出一个决策,在当前的这个状态应该输出往右移或者往左移。这里有个问题,就是我们没有标签来说明你现在这个动作是正确还是错误,必须等到这个游戏结束可能,这个游戏可能十秒过后才结束。现在这个动作往左往右到底是不是对最后游戏的结束能赢有帮助,其实是不清楚的的。这里就面临一个`延迟奖励(Delayed Reward)`,所以就使得训练这个网络非常困难。
|
||||
比如现在是在第三步,你把这个序列放进去,你希望这个网络可以输出一个决策,在当前的这个状态应该输出往右移或者往左移。这里有个问题:我们没有标签来说明你现在这个动作是正确还是错误,必须等到游戏结束才可能说明,这个游戏可能十秒过后才结束。现在这个动作到底对最后游戏结束能赢是否有帮助,其实是不清楚的。这里就面临`延迟奖励(Delayed Reward)`,所以就使得训练这个网络非常困难。
|
||||
|
||||

|
||||
|
||||
@@ -46,12 +46,12 @@
|
||||
* 探索是说你会去尝试一些新的行为,这些新的行为有可能会使你得到更高的奖励,也有可能使你一无所有。
|
||||
* 利用就是就采取你已知的可以获得最大奖励的行为,你就重复执行这个动作就可以了,因为你已经知道可以获得一定的奖励。
|
||||
* 因此,我们需要在探索和利用之间取得一个权衡,这也是在监督学习里面没有的情况。
|
||||
* 在强化学习过程中,没有非常强的 supervisor,只有一个`奖励信号(reward signal)`,就是环境会在很久以后告诉你之前你采取的行为到底是不是有效的。Agent 在这个强化学习里面学习的话就非常困难,因为你没有得到即时反馈。当你采取一个行为过后,如果是监督学习,你就立刻可以获得一个指引,就说你现在做出了一个错误的决定,那么正确的决定应该是谁。而在强化学习里面,环境可能会告诉你这个行为是错误的,但是它并没有告诉你正确的行为是什么。而且更困难的是,它可能是在一两分钟过后告诉你错误,它再告诉你之前的行为到底行不行。所以这也是强化学习和监督学习不同的地方。
|
||||
* 在强化学习过程中,没有非常强的监督者(supervisor),只有一个`奖励信号(reward signal)`,就是环境会在很久以后告诉你之前你采取的行为到底是不是有效的。Agent 在这个强化学习里面学习的话就非常困难,因为你没有得到即时反馈。当你采取一个行为过后,如果是监督学习,你就立刻可以获得一个指引,就说你现在做出了一个错误的决定,那么正确的决定应该是谁。而在强化学习里面,环境可能会告诉你这个行为是错误的,但是它并没有告诉你正确的行为是什么。而且更困难的是,它可能是在一两分钟过后告诉你错误,它再告诉你之前的行为到底行不行。所以这也是强化学习和监督学习不同的地方。
|
||||
|
||||
通过跟监督学习比较,我们可以总结出强化学习的一些特征。
|
||||
|
||||
* 强化学习有这个 `trial-and-error exploration`,它需要通过探索环境来获取对这个环境的理解。
|
||||
* 强化学习 agent 会从环境里面获得延迟的奖励(delayed reward)。
|
||||
* 强化学习有这个 `试错探索(trial-and-error exploration)`,它需要通过探索环境来获取对这个环境的理解。
|
||||
* 强化学习 agent 会从环境里面获得延迟的奖励。
|
||||
* 在强化学习的训练过程中,时间非常重要。因为你得到的数据都是有这个时间关联的,而不是独立同分布的。在机器学习中,如果观测数据有非常强的关联,其实会使得这个训练非常不稳定。这也是为什么在监督学习中,我们希望数据尽量是独立同分布,这样就可以消除数据之间的相关性。
|
||||
* Agent 的行为会影响它随后得到的数据,这一点是非常重要的。在我们训练 agent 的过程中,很多时候我们也是通过正在学习的这个 agent 去跟环境交互来得到数据。所以如果在训练过程中,这个 agent 的模型很快死掉了,那会使得我们采集到的数据是非常糟糕的,这样整个训练过程就失败了。所以在强化学习里面一个非常重要的问题就是怎么让这个 agent 的行为一直稳定地提升。
|
||||
|
||||
@@ -246,7 +246,7 @@ Policy 决定了这个 agent 的行为,它其实是一个函数,把输入的
|
||||
|
||||

|
||||
|
||||
当我们有了这三个成分过后,就形成了一个 `Markov Decision Process`。这个决策过程可视化了状态之间的转移以及采取的行为。
|
||||
当我们有了这三个组成部分过后,就形成了一个 `马尔可夫决策过程(Markov Decision Process)`。这个决策过程可视化了状态之间的转移以及采取的行为。
|
||||
|
||||

|
||||
|
||||
|
||||
Reference in New Issue
Block a user