diff --git a/docs/chapter1/chapter1_questions&keywords.md b/docs/chapter1/chapter1_questions&keywords.md index 0286687..522f84b 100644 --- a/docs/chapter1/chapter1_questions&keywords.md +++ b/docs/chapter1/chapter1_questions&keywords.md @@ -1,4 +1,6 @@ -# 关键词 +# 第一章 强化学习基础 + +## 关键词 - **强化学习(reinforcement learning,RL)**:智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。 @@ -29,7 +31,7 @@ - **免模型(model-free)结构**:智能体没有直接估计状态的转移,也没有得到环境的具体转移变量,它通过学习价值函数或者策略网络进行决策。 -# 习题 +## 习题 **1-1** 强化学习的基本结构是什么? @@ -98,7 +100,7 @@ 环境和奖励函数不是我们可以控制的,两者是在开始学习之前就已经事先确定的。我们唯一能做的事情是调整策略,使得智能体可以在环境中得到最大的奖励。另外,策略决定了智能体的行为,策略就是给一个外界的输入,然后它会输出现在应该要执行的动作。 -# 面试题 +## 面试题 **1-1** 友善的面试官: 看来你对于强化学习还是有一定了解的呀,那么可以用一句话谈一下你对于强化学习的认识吗?