Update chapter7_questions&keywords.md

This commit is contained in:
David Young
2020-09-08 09:16:25 +08:00
committed by GitHub
parent 555af13669
commit d3928ff193

View File

@@ -1,6 +1,6 @@
## Chapter7 Q-learning-Double DQN
# Chapter7 Q-learning-Double DQN
#### 1 关键词
## 1 Keywords
- **Double DQN** 在Double DQN中存在有两个 Q-network首先第一个 Q-network决定的是哪一个 action 的 Q value 最大从而决定了你的action。另一方面 Q value 是用 $Q'$ 算出来的,这样就可以避免 over estimate 的问题。具体来说,假设我们有两个 Q-function假设第一个Q-function 它高估了它现在选出来的action a那没关系只要第二个Q-function $Q'$ 没有高估这个action a 的值,那你算出来的,就还是正常的值。
- **Dueling DQN** 将原来的DQN的计算过程分为**两个path**。对于第一个path会计算一个于input state有关的一个标量 $V(s)$对于第二个path会计算出一个vector $A(s,a)$ 其对应每一个action。最后的网络是将两个path的结果相加得到我们最终需要的Q value。用一个公式表示也就是 $Q(s,a)=V(s)+A(s,a)$ 。
@@ -9,7 +9,7 @@
- **Distributional Q-function** 对于DQN进行model distribution。将最终的网络的output的每一类别的action再进行distribution。
- **Rainbow** 也就是将我们这两节内容所有的七个tips综合起来的方法7个方法分别包括DQN、DDQN、Prioritized DDQN、Dueling DDQN、A3C、Distributional DQN、Noisy DQN进而考察每一个方法的贡献度或者是否对于与环境的交互式正反馈的。
#### 2 思考题
## 2 Questions
- 为什么传统的DQN的效果并不好参考公式 $Q(s_t ,a_t)=r_t+\max_{a}Q(s_{t+1},a)$
@@ -34,4 +34,4 @@
答:
- 优势:因为我们现在 sample 了比较多的step之前是只sample 了一个step 所以某一个step 得到的data 是真实值接下来都是Q value 估测出来的。现在sample 比较多stepsample N 个step 才估测value所以估测的部分所造成的影响就会比小。
- 劣势:因为我们的 reward 比较多,当我们把 N 步的 reward 加起来,对应的 variance 就会比较大。但是我们可以选择通过调整 N 值去在variance 跟不精确的 Q 之间取得一个平衡。这里介绍的参数 N 就是一个hyper parameter你要调这个N 到底是多少,你是要多 sample 三步,还是多 sample 五步。
- 劣势:因为我们的 reward 比较多,当我们把 N 步的 reward 加起来,对应的 variance 就会比较大。但是我们可以选择通过调整 N 值去在variance 跟不精确的 Q 之间取得一个平衡。这里介绍的参数 N 就是一个hyper parameter你要调这个N 到底是多少,你是要多 sample 三步,还是多 sample 五步。