diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index e8747cc..008dc61 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -297,7 +297,7 @@ A: 对于一个状态转移概率已知的马尔可夫决策过程,我们可 具体来说,当智能体知道状态转移函数 $P(s_{t+1}|s_t,a_t)$ 和奖励函数 $R(s_t,a_t)$ 后,它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态,这样智能体就不需要在真实环境中采取动作,直接在虚拟世界中学习和规划策略即可。这种学习方法称为`有模型学习`。 -![](img/1.35.png) +![](img/1.35.png 'size=400') 上图是有模型强化学习的流程图。 @@ -378,7 +378,7 @@ Learning 和 Planning 是序列决策的两个基本问题。 * Exploration 就是说你可能尝试一些新的招式,有可能你会发出大招来,这样就可能一招毙命。 ### K-armed Bandit -![](img/1.39.png) +![](img/1.39.png 'size=450') 与监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作。需注意的是,即便在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作。