From ab3e09218658f38f4070369f9c3936160f4c04bb Mon Sep 17 00:00:00 2001 From: KMnO4-zx <1021385881@qq.com> Date: Tue, 13 May 2025 21:21:10 +0800 Subject: [PATCH] =?UTF-8?q?doc:=E4=BF=AE=E6=AD=A3=E7=AC=AC=E4=BA=8C?= =?UTF-8?q?=E7=AB=A0=E5=85=AC=E5=BC=8F?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/chapter2/第二章 Transformer架构.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter2/第二章 Transformer架构.md b/docs/chapter2/第二章 Transformer架构.md index 8f672fd..7467982 100644 --- a/docs/chapter2/第二章 Transformer架构.md +++ b/docs/chapter2/第二章 Transformer架构.md @@ -96,7 +96,7 @@ $$ 此处的 K 即为将所有 Key 对应的词向量堆叠形成的矩阵。基于矩阵乘法的定义,x 即为 q 与每一个 k 值的点积。现在我们得到的 x 即反映了 Query 和每一个 Key 的相似程度,我们再通过一个 Softmax 层将其转化为和为 1 的权重: $$ -softmax(x)_i = \frac{e^{xi}}{\sum_{j}e^{x_j}} +\text{softmax}(x)_i = \frac{e^{xi}}{\sum_{j}e^{x_j}} $$ 这样,得到的向量就能够反映 Query 和每一个 Key 的相似程度,同时又相加权重为 1,也就是我们的注意力分数了。最后,我们再将得到的注意力分数和值向量做对应乘积即可。根据上述过程,我们就可以得到注意力机制计算的基本公式: