Update chapter1_questions&keywords.md
This commit is contained in:
@@ -1,4 +1,6 @@
|
||||
# 关键词
|
||||
# 第一章 强化学习基础
|
||||
|
||||
## 关键词
|
||||
|
||||
- **强化学习(reinforcement learning,RL)**:智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。
|
||||
|
||||
@@ -29,7 +31,7 @@
|
||||
- **免模型(model-free)结构**:智能体没有直接估计状态的转移,也没有得到环境的具体转移变量,它通过学习价值函数或者策略网络进行决策。
|
||||
|
||||
|
||||
# 习题
|
||||
## 习题
|
||||
|
||||
**1-1** 强化学习的基本结构是什么?
|
||||
|
||||
@@ -98,7 +100,7 @@
|
||||
环境和奖励函数不是我们可以控制的,两者是在开始学习之前就已经事先确定的。我们唯一能做的事情是调整策略,使得智能体可以在环境中得到最大的奖励。另外,策略决定了智能体的行为,策略就是给一个外界的输入,然后它会输出现在应该要执行的动作。
|
||||
|
||||
|
||||
# 面试题
|
||||
## 面试题
|
||||
|
||||
**1-1** 友善的面试官: 看来你对于强化学习还是有一定了解的呀,那么可以用一句话谈一下你对于强化学习的认识吗?
|
||||
|
||||
|
||||
Reference in New Issue
Block a user