This commit is contained in:
qiwang067
2021-05-25 20:45:45 +08:00
parent b7cad8e4f7
commit bda25e4fc4

View File

@@ -378,7 +378,7 @@ Learning 和 Planning 是序列决策的两个基本问题。
* 探索:你可能尝试一些新的招式,有可能你会发出大招来,这样就可能一招毙命。
### K-armed Bandit
![](img/1.39.png ':size=300')
![](img/1.39.png ':size=280')
与监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作。需注意的是,即便在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作。
@@ -450,6 +450,7 @@ for step in range(100):
几行代码就实现了强化学习的框架。
![](img/1.46.png ':size=300')
在 OpenAI Gym 里面有很经典的控制类游戏。
* 比如说 Acrobot 就是把两节铁杖甩了立起来。