Update chapter1_questions&keywords.md
This commit is contained in:
@@ -1,4 +1,6 @@
|
|||||||
# 关键词
|
# 第一章 强化学习基础
|
||||||
|
|
||||||
|
## 关键词
|
||||||
|
|
||||||
- **强化学习(reinforcement learning,RL)**:智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。
|
- **强化学习(reinforcement learning,RL)**:智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。
|
||||||
|
|
||||||
@@ -29,7 +31,7 @@
|
|||||||
- **免模型(model-free)结构**:智能体没有直接估计状态的转移,也没有得到环境的具体转移变量,它通过学习价值函数或者策略网络进行决策。
|
- **免模型(model-free)结构**:智能体没有直接估计状态的转移,也没有得到环境的具体转移变量,它通过学习价值函数或者策略网络进行决策。
|
||||||
|
|
||||||
|
|
||||||
# 习题
|
## 习题
|
||||||
|
|
||||||
**1-1** 强化学习的基本结构是什么?
|
**1-1** 强化学习的基本结构是什么?
|
||||||
|
|
||||||
@@ -98,7 +100,7 @@
|
|||||||
环境和奖励函数不是我们可以控制的,两者是在开始学习之前就已经事先确定的。我们唯一能做的事情是调整策略,使得智能体可以在环境中得到最大的奖励。另外,策略决定了智能体的行为,策略就是给一个外界的输入,然后它会输出现在应该要执行的动作。
|
环境和奖励函数不是我们可以控制的,两者是在开始学习之前就已经事先确定的。我们唯一能做的事情是调整策略,使得智能体可以在环境中得到最大的奖励。另外,策略决定了智能体的行为,策略就是给一个外界的输入,然后它会输出现在应该要执行的动作。
|
||||||
|
|
||||||
|
|
||||||
# 面试题
|
## 面试题
|
||||||
|
|
||||||
**1-1** 友善的面试官: 看来你对于强化学习还是有一定了解的呀,那么可以用一句话谈一下你对于强化学习的认识吗?
|
**1-1** 友善的面试官: 看来你对于强化学习还是有一定了解的呀,那么可以用一句话谈一下你对于强化学习的认识吗?
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user