Update chapter1_questions&keywords.md
This commit is contained in:
@@ -12,7 +12,7 @@
|
|||||||
|
|
||||||
- **探索(exploration)**:在当前的情况下,继续尝试新的动作。其有可能得到更高的奖励,也有可能一无所有。
|
- **探索(exploration)**:在当前的情况下,继续尝试新的动作。其有可能得到更高的奖励,也有可能一无所有。
|
||||||
|
|
||||||
- **开发(exploitation)**:在当前的情况下,继续尝试已知的可以获得最大奖励的过程,即选择重复执行当前动作。
|
- **利用(exploitation)**:在当前的情况下,继续尝试已知的可以获得最大奖励的过程,即选择重复执行当前动作。
|
||||||
|
|
||||||
- **深度强化学习(deep reinforcement learning)**:不需要手动设计特征,仅需要输入状态就可以让系统直接输出动作的一个端到端(end-to-end)的强化学习方法。通常使用神经网络来拟合价值函数(value function)或者策略网络(policy network)。
|
- **深度强化学习(deep reinforcement learning)**:不需要手动设计特征,仅需要输入状态就可以让系统直接输出动作的一个端到端(end-to-end)的强化学习方法。通常使用神经网络来拟合价值函数(value function)或者策略网络(policy network)。
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user