Update chapter1_questions&keywords.md

2023-01-31 02:25:48 +00:00
parent 7bab0eb596
commit 93e0f51cad
1 changed files with 1 additions and 1 deletions
@@ -12,7 +12,7 @@

 - **探索（exploration）**：在当前的情况下，继续尝试新的动作。其有可能得到更高的奖励，也有可能一无所有。

- **开发（exploitation）**：在当前的情况下，继续尝试已知的可以获得最大奖励的过程，即选择重复执行当前动作。
+- **利用（exploitation）**：在当前的情况下，继续尝试已知的可以获得最大奖励的过程，即选择重复执行当前动作。

 - **深度强化学习（deep reinforcement learning）**：不需要手动设计特征，仅需要输入状态就可以让系统直接输出动作的一个端到端（end-to-end）的强化学习方法。通常使用神经网络来拟合价值函数（value function）或者策略网络（policy network）。