From 93e0f51cad2e7a1ee530fa90f6b3a82a093bdf10 Mon Sep 17 00:00:00 2001 From: Yiyuan Yang Date: Tue, 31 Jan 2023 02:25:48 +0000 Subject: [PATCH] Update chapter1_questions&keywords.md --- docs/chapter1/chapter1_questions&keywords.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter1/chapter1_questions&keywords.md b/docs/chapter1/chapter1_questions&keywords.md index bed84ba..e7cf456 100644 --- a/docs/chapter1/chapter1_questions&keywords.md +++ b/docs/chapter1/chapter1_questions&keywords.md @@ -12,7 +12,7 @@ - **探索(exploration)**:在当前的情况下,继续尝试新的动作。其有可能得到更高的奖励,也有可能一无所有。 -- **开发(exploitation)**:在当前的情况下,继续尝试已知的可以获得最大奖励的过程,即选择重复执行当前动作。 +- **利用(exploitation)**:在当前的情况下,继续尝试已知的可以获得最大奖励的过程,即选择重复执行当前动作。 - **深度强化学习(deep reinforcement learning)**:不需要手动设计特征,仅需要输入状态就可以让系统直接输出动作的一个端到端(end-to-end)的强化学习方法。通常使用神经网络来拟合价值函数(value function)或者策略网络(policy network)。