update ch7

2022-09-17 19:11:28 +08:00
parent f1a66c73f4
commit 419c5cfa79
1 changed files with 0 additions and 2 deletions
@@ -16,7 +16,6 @@ Q: 为什么 Q 值总是被高估了？
 A:因为实际在训练的时候，如式(7.1)所示，我们要让左式与右式（目标）越接近越好。但目标的值很容易被设得太高，因为在计算目标的时候，我们实际上在做的，是看哪一个 $a$ 可以得到最大的 Q 值，就把它加上去变成目标。

 $$
-    
    Q\left(s_{t}, a_{t}\right) \longleftrightarrow r_{t}+\max _{a} Q\left(s_{t+1}, a\right) \tag{7.1}
 $$

@@ -128,7 +127,6 @@ $$

 我们还可以改进探索。$\varepsilon$-贪心这样的探索就是在动作的空间上加噪声，但是有一个更好的方法称为**噪声网络（noisy net）**，它是在参数的空间上加噪声。噪声网络是指，每一次在一个回合开始的时候，在智能体要与环境交互的时候，智能体使用Q函数来采取动作，Q函数里面就是一个网络，我们在网络的每一个参数上加上一个高斯噪声（Gaussian noise），就把原来的Q函数变成 $\tilde{Q}$ 。因为我们已经用 $\hat{Q}$ 来表示目标网络，所以我们用 $\tilde{Q}$  来表示**噪声Q函数（noisy Q-function）**。我们把每一个参数都加上一个高斯噪声，就得到一个新的网络 $\tilde{Q}$。使用噪声网络执行的动作为
 $$
-    
    a=\underset{a}{\arg \max} \tilde{Q}(s, a)
 $$