update ch7
This commit is contained in:
@@ -16,7 +16,6 @@ Q: 为什么 Q 值总是被高估了?
|
||||
A:因为实际在训练的时候,如式(7.1)所示,我们要让左式与右式(目标)越接近越好。但目标的值很容易被设得太高,因为在计算目标的时候,我们实际上在做的,是看哪一个 $a$ 可以得到最大的 Q 值,就把它加上去变成目标。
|
||||
|
||||
$$
|
||||
|
||||
Q\left(s_{t}, a_{t}\right) \longleftrightarrow r_{t}+\max _{a} Q\left(s_{t+1}, a\right) \tag{7.1}
|
||||
$$
|
||||
|
||||
@@ -128,7 +127,6 @@ $$
|
||||
|
||||
我们还可以改进探索。$\varepsilon$-贪心这样的探索就是在动作的空间上加噪声,但是有一个更好的方法称为**噪声网络(noisy net)**,它是在参数的空间上加噪声。噪声网络是指,每一次在一个回合开始的时候,在智能体要与环境交互的时候,智能体使用Q函数来采取动作,Q函数里面就是一个网络,我们在网络的每一个参数上加上一个高斯噪声(Gaussian noise),就把原来的Q函数变成 $\tilde{Q}$ 。因为我们已经用 $\hat{Q}$ 来表示目标网络,所以我们用 $\tilde{Q}$ 来表示**噪声Q函数(noisy Q-function)**。我们把每一个参数都加上一个高斯噪声,就得到一个新的网络 $\tilde{Q}$。使用噪声网络执行的动作为
|
||||
$$
|
||||
|
||||
a=\underset{a}{\arg \max} \tilde{Q}(s, a)
|
||||
$$
|
||||
|
||||
|
||||
Reference in New Issue
Block a user