From 419c5cfa7963c0ed9e4855ee7bb78cb2483745c2 Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Sat, 17 Sep 2022 19:11:28 +0800
Subject: [PATCH] update ch7

---
 docs/chapter7/chapter7.md | 2 --
 1 file changed, 2 deletions(-)

diff --git a/docs/chapter7/chapter7.md b/docs/chapter7/chapter7.md
index 910cfee..83a418c 100644
--- a/docs/chapter7/chapter7.md
+++ b/docs/chapter7/chapter7.md
@@ -16,7 +16,6 @@ Q: 为什么 Q 值总是被高估了？
 A:因为实际在训练的时候，如式(7.1)所示，我们要让左式与右式（目标）越接近越好。但目标的值很容易被设得太高，因为在计算目标的时候，我们实际上在做的，是看哪一个 $a$ 可以得到最大的 Q 值，就把它加上去变成目标。
 
 $$
-    
     Q\left(s_{t}, a_{t}\right) \longleftrightarrow r_{t}+\max _{a} Q\left(s_{t+1}, a\right) \tag{7.1}
 $$
 
@@ -128,7 +127,6 @@ $$
 
 我们还可以改进探索。$\varepsilon$-贪心这样的探索就是在动作的空间上加噪声，但是有一个更好的方法称为**噪声网络（noisy net）**，它是在参数的空间上加噪声。噪声网络是指，每一次在一个回合开始的时候，在智能体要与环境交互的时候，智能体使用Q函数来采取动作，Q函数里面就是一个网络，我们在网络的每一个参数上加上一个高斯噪声（Gaussian noise），就把原来的Q函数变成 $\tilde{Q}$ 。因为我们已经用 $\hat{Q}$ 来表示目标网络，所以我们用 $\tilde{Q}$  来表示**噪声Q函数（noisy Q-function）**。我们把每一个参数都加上一个高斯噪声，就得到一个新的网络 $\tilde{Q}$。使用噪声网络执行的动作为
 $$
-    
     a=\underset{a}{\arg \max} \tilde{Q}(s, a)
 $$