fix ch1

2021-05-25 20:45:45 +08:00
parent b7cad8e4f7
commit bda25e4fc4
1 changed files with 2 additions and 1 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -378,7 +378,7 @@ Learning 和 Planning 是序列决策的两个基本问题。
  *  探索：你可能尝试一些新的招式，有可能你会发出大招来，这样就可能一招毙命。

 ### K-armed Bandit
-![](img/1.39.png ':size=300')
+![](img/1.39.png ':size=280')

 与监督学习不同，强化学习任务的最终奖赏是在多步动作之后才能观察到，这里我们不妨先考虑比较简单的情形：最大化单步奖赏，即仅考虑一步操作。需注意的是，即便在这样的简化情形下，强化学习仍与监督学习有显著不同，因为机器需通过尝试来发现各个动作产生的结果，而没有训练数据告诉机器应当做哪个动作。

@@ -450,6 +450,7 @@ for step in range(100):
 几行代码就实现了强化学习的框架。

 ![](img/1.46.png ':size=300')
+
 在 OpenAI Gym 里面有很经典的控制类游戏。

 * 比如说 Acrobot 就是把两节铁杖甩了立起来。