From a502e74d8f3465a014b8291c49fe80b393baa852 Mon Sep 17 00:00:00 2001 From: David Young <46375780+yyysjz1997@users.noreply.github.com> Date: Sun, 7 Feb 2021 22:11:20 +0800 Subject: [PATCH] Update chapter6_questions&keywords.md --- docs/chapter6/chapter6_questions&keywords.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter6/chapter6_questions&keywords.md b/docs/chapter6/chapter6_questions&keywords.md index 8348bd0..052415e 100644 --- a/docs/chapter6/chapter6_questions&keywords.md +++ b/docs/chapter6/chapter6_questions&keywords.md @@ -2,7 +2,7 @@ ## 1 Keywords -- **DQN(Deep Q-Network):** 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神经网络技术,并采用了目标网络(Target Network)和经历回放(Experience Replay)的方法进行网络的训练。 +- **DQN(Deep Q-Network):** 基于深度学习的Q-learninyang算法,其结合了 Value Function Approximation(价值函数近似)与神经网络技术,并采用了目标网络(Target Network)和经验回放(Experience Replay)的方法进行网络的训练。 - **State-value Function:** 本质是一种critic。其输入为actor某一时刻的state,对应的输出为一个标量,即当actor在对应的state时,预期的到过程结束时间段中获得的value的数值。 - **State-value Function Bellman Equation:** 基于state-value function的Bellman Equation,它表示在状态 $s_t$ 下带来的累积奖励 $G_t$ 的期望。 - **Q-function:** 其也被称为state-action value function。其input 是一个 state 跟 action 的 pair,即在某一个 state 采取某一个action,假设我们都使用 actor $\pi$ ,得到的 accumulated reward 的期望值有多大。