fix ch1
This commit is contained in:
@@ -378,7 +378,7 @@ Learning 和 Planning 是序列决策的两个基本问题。
|
||||
* 探索:你可能尝试一些新的招式,有可能你会发出大招来,这样就可能一招毙命。
|
||||
|
||||
### K-armed Bandit
|
||||

|
||||

|
||||
|
||||
与监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作。需注意的是,即便在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作。
|
||||
|
||||
@@ -450,6 +450,7 @@ for step in range(100):
|
||||
几行代码就实现了强化学习的框架。
|
||||
|
||||

|
||||
|
||||
在 OpenAI Gym 里面有很经典的控制类游戏。
|
||||
|
||||
* 比如说 Acrobot 就是把两节铁杖甩了立起来。
|
||||
|
||||
Reference in New Issue
Block a user