From 419c5cfa7963c0ed9e4855ee7bb78cb2483745c2 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Sat, 17 Sep 2022 19:11:28 +0800 Subject: [PATCH] update ch7 --- docs/chapter7/chapter7.md | 2 -- 1 file changed, 2 deletions(-) diff --git a/docs/chapter7/chapter7.md b/docs/chapter7/chapter7.md index 910cfee..83a418c 100644 --- a/docs/chapter7/chapter7.md +++ b/docs/chapter7/chapter7.md @@ -16,7 +16,6 @@ Q: 为什么 Q 值总是被高估了? A:因为实际在训练的时候,如式(7.1)所示,我们要让左式与右式(目标)越接近越好。但目标的值很容易被设得太高,因为在计算目标的时候,我们实际上在做的,是看哪一个 $a$ 可以得到最大的 Q 值,就把它加上去变成目标。 $$ - Q\left(s_{t}, a_{t}\right) \longleftrightarrow r_{t}+\max _{a} Q\left(s_{t+1}, a\right) \tag{7.1} $$ @@ -128,7 +127,6 @@ $$ 我们还可以改进探索。$\varepsilon$-贪心这样的探索就是在动作的空间上加噪声,但是有一个更好的方法称为**噪声网络(noisy net)**,它是在参数的空间上加噪声。噪声网络是指,每一次在一个回合开始的时候,在智能体要与环境交互的时候,智能体使用Q函数来采取动作,Q函数里面就是一个网络,我们在网络的每一个参数上加上一个高斯噪声(Gaussian noise),就把原来的Q函数变成 $\tilde{Q}$ 。因为我们已经用 $\hat{Q}$ 来表示目标网络,所以我们用 $\tilde{Q}$ 来表示**噪声Q函数(noisy Q-function)**。我们把每一个参数都加上一个高斯噪声,就得到一个新的网络 $\tilde{Q}$。使用噪声网络执行的动作为 $$ - a=\underset{a}{\arg \max} \tilde{Q}(s, a) $$