From bda25e4fc4eff725ed4d4ee096b708c1874ce9da Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Tue, 25 May 2021 20:45:45 +0800 Subject: [PATCH] fix ch1 --- docs/chapter1/chapter1.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index e5f58e3..f478465 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -378,7 +378,7 @@ Learning 和 Planning 是序列决策的两个基本问题。 * 探索:你可能尝试一些新的招式,有可能你会发出大招来,这样就可能一招毙命。 ### K-armed Bandit -![](img/1.39.png ':size=300') +![](img/1.39.png ':size=280') 与监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作。需注意的是,即便在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作。 @@ -450,6 +450,7 @@ for step in range(100): 几行代码就实现了强化学习的框架。 ![](img/1.46.png ':size=300') + 在 OpenAI Gym 里面有很经典的控制类游戏。 * 比如说 Acrobot 就是把两节铁杖甩了立起来。