Update chapter1_questions&keywords.md

2022-09-21 15:30:06 +08:00
parent e0d1486b49
commit 6eab32ff56
1 changed files with 5 additions and 3 deletions
@@ -1,4 +1,6 @@
-# 关键词
+# 第一章 强化学习基础 
+
+## 关键词

 - **强化学习（reinforcement learning，RL）**：智能体可以在与复杂且不确定的环境进行交互时，尝试使所获得的奖励最大化的算法。

@@ -29,7 +31,7 @@
 - **免模型（model-free）结构**：智能体没有直接估计状态的转移，也没有得到环境的具体转移变量，它通过学习价值函数或者策略网络进行决策。


-# 习题
+## 习题

 **1-1** 强化学习的基本结构是什么？

@@ -98,7 +100,7 @@
 环境和奖励函数不是我们可以控制的，两者是在开始学习之前就已经事先确定的。我们唯一能做的事情是调整策略，使得智能体可以在环境中得到最大的奖励。另外，策略决定了智能体的行为，策略就是给一个外界的输入，然后它会输出现在应该要执行的动作。


-# 面试题
+## 面试题

 **1-1** 友善的面试官: 看来你对于强化学习还是有一定了解的呀，那么可以用一句话谈一下你对于强化学习的认识吗？