diff --git a/docs/chapter1/chapter1_questions&keywords.md b/docs/chapter1/chapter1_questions&keywords.md index bed84ba..e7cf456 100644 --- a/docs/chapter1/chapter1_questions&keywords.md +++ b/docs/chapter1/chapter1_questions&keywords.md @@ -12,7 +12,7 @@ - **探索(exploration)**:在当前的情况下,继续尝试新的动作。其有可能得到更高的奖励,也有可能一无所有。 -- **开发(exploitation)**:在当前的情况下,继续尝试已知的可以获得最大奖励的过程,即选择重复执行当前动作。 +- **利用(exploitation)**:在当前的情况下,继续尝试已知的可以获得最大奖励的过程,即选择重复执行当前动作。 - **深度强化学习(deep reinforcement learning)**:不需要手动设计特征,仅需要输入状态就可以让系统直接输出动作的一个端到端(end-to-end)的强化学习方法。通常使用神经网络来拟合价值函数(value function)或者策略网络(policy network)。