diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index cd16a4e..8b18b7f 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -6,7 +6,7 @@ **强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。** 示意图由两部分组成:agent 和 environment。在强化学习过程中,agent 跟 environment 一直在交互。Agent 在环境里面获取到状态,agent 会利用这个状态输出一个动作(action),一个决策。然后这个决策会放到环境之中去,环境会根据 agent 采取的决策,输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。 -![](img/1.2.png ':size=450') +![](img/1.2.png ':size=500') **我们可以把强化学习跟监督学习做一个对比。** @@ -26,7 +26,7 @@ * 在游戏过程中,大家可以发现这个 agent 得到的观测不是个独立同分布的分布,上一帧下一帧其实有非常强的连续性。这就是说,得到的数据是相关的时间序列数据,不满足独立同分布。 * 另外一点,在玩游戏的过程中,你并没有立刻获得反馈,没有告诉你哪个动作是正确动作。比如你现在把这个木板往右移,那么只会使得这个球往上或者往左上去一点,你并不会得到立刻的反馈。所以强化学习这么困难的原因是没有得到很好的反馈,然后你依然希望 agent 在这个环境里面学习。 -![](img/1.4.png ':size=450') +![](img/1.4.png ':size=500') 强化学习的训练数据就是这样一个玩游戏的过程。你从第一步开始,采取一个决策,比如说你把这个往右移,接到这个球了。第二步你又做出决策,得到的训练数据是一个玩游戏的序列。 @@ -90,7 +90,7 @@ * 一场游戏叫做一个 `episode(回合)` 或者 `trial(试验)`。 -![](img/1.14.png ':size=450') +![](img/1.14.png ':size=500') 强化学习是有一定的历史的,只是最近大家把强化学习跟深度学习结合起来,就形成了`深度强化学习(Deep Reinforcemet Learning)`。深度强化学习 = 深度学习 + 强化学习。这里做一个类比,把它类比于这个传统的计算机视觉以及深度计算机视觉。 @@ -99,7 +99,7 @@ * 提取这些特征后,我们再单独训练一个分类器。这个分类器可以是 SVM、Boosting,然后就可以辨别这张图片是狗还是猫。 * 2012 年过后,我们有了卷积神经网络,大家就把特征提取以及分类两者合到一块儿去了,就是训练一个神经网络。这个神经网络既可以做特征提取,也可以做分类。它可以实现这种端到端的训练,它里面的参数可以在每一个阶段都得到极大的优化,这样就得到了一个非常重要的突破。 -![](img/1.15.png ':size=450') +![](img/1.15.png ':size=500') 我们可以把神经网络放到强化学习里面。 @@ -150,7 +150,7 @@ ### Sequential Decision Making -![](img/1.21.png) +![](img/1.21.png ':size=500') 在一个强化学习环境里面,agent 的目的就是选取一系列的动作来极大化它的奖励,所以这些采取的动作必须有长期的影响。但在这个过程里面,它的奖励其实是被延迟了,就是说你现在采取的某一步决策可能要等到时间很久过后才知道这一步到底产生了什么样的影响。 @@ -432,7 +432,7 @@ $python >>>import gym ``` -![](img/1.45.png) +![](img/1.45.png ':size=450') ```python import gym diff --git a/docs/chapter1/img/1.45.png b/docs/chapter1/img/1.45.png index f4a85e2..52a6da2 100644 Binary files a/docs/chapter1/img/1.45.png and b/docs/chapter1/img/1.45.png differ