From 555af13669798f7ad5ff01ff9ae6cccd3f194c85 Mon Sep 17 00:00:00 2001 From: David Young <46375780+yyysjz1997@users.noreply.github.com> Date: Tue, 8 Sep 2020 09:15:50 +0800 Subject: [PATCH] Update chapter6_questions&keywords.md --- docs/chapter6/chapter6_questions&keywords.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/docs/chapter6/chapter6_questions&keywords.md b/docs/chapter6/chapter6_questions&keywords.md index dabe5c1..e99699f 100644 --- a/docs/chapter6/chapter6_questions&keywords.md +++ b/docs/chapter6/chapter6_questions&keywords.md @@ -1,6 +1,6 @@ -## Chapter6 Q-learning-State Value Function +# Chapter6 Q-learning-State Value Function -#### 1 关键词 +## 1 Keywords - **DQN(Deep Q-Network):** 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神经网络技术,并采用了目标网络(Target Network)和经历回放(Experience Replay)的方法进行网络的训练。 - **State-value Function:** 本质是一种critic。其输入为actor某一时刻的state,对应的输出为一个标量,即当actor在对应的state时,预期的到过程结束时间段中获得的value的数值。 @@ -11,7 +11,7 @@ - **Exploration:** 在我们使用Q-function的时候,我们的policy完全取决于Q-function,有可能导致出现对应的action是固定的某几个数值的情况,而不像policy gradient中的output为随机的,我们再从随机的distribution中sample选择action。这样会导致我们继续训练的input的值一样,从而”加重“output的固定性,导致整个模型的表达能力的急剧下降,这也就是`探索-利用窘境(Exploration-Exploitation dilemma)`问题。所以我们使用`Epsilon Greedy`和 `Boltzmann Exploration`等Exploration方法进行优化。 - **Experience Replay(经验回放):** 其会构建一个Replay Buffer(Replay Memory),用来保存许多data,每一个data的形式如下:在某一个 state $s_t$,采取某一个action $a_t$,得到了 reward $r_t$,然后跳到 state $s_{t+1}$。我们使用 $\pi$ 去跟环境互动很多次,把收集到的数据都放到这个 replay buffer 中。当我们的buffer”装满“后,就会自动删去最早进入buffer的data。在训练时,对于每一轮迭代都有相对应的batch(与我们训练普通的Network一样通过sample得到),然后用这个batch中的data去update我们的Q-function。综上,Q-function再sample和训练的时候,会用到过去的经验数据,所以这里称这个方法为Experience Replay,其也是DQN中比较重要的tip。 -#### 2 思考题 +## 2 Questions - 为什么在DQN中采用价值函数近似(Value Function Approximation)的表示方法?