doc:修正第二章公式

This commit is contained in:
KMnO4-zx
2025-05-13 21:21:10 +08:00
parent 786c77e2ea
commit ab3e092186

View File

@@ -96,7 +96,7 @@ $$
此处的 K 即为将所有 Key 对应的词向量堆叠形成的矩阵。基于矩阵乘法的定义x 即为 q 与每一个 k 值的点积。现在我们得到的 x 即反映了 Query 和每一个 Key 的相似程度,我们再通过一个 Softmax 层将其转化为和为 1 的权重: 此处的 K 即为将所有 Key 对应的词向量堆叠形成的矩阵。基于矩阵乘法的定义x 即为 q 与每一个 k 值的点积。现在我们得到的 x 即反映了 Query 和每一个 Key 的相似程度,我们再通过一个 Softmax 层将其转化为和为 1 的权重:
$$ $$
softmax(x)_i = \frac{e^{xi}}{\sum_{j}e^{x_j}} \text{softmax}(x)_i = \frac{e^{xi}}{\sum_{j}e^{x_j}}
$$ $$
这样,得到的向量就能够反映 Query 和每一个 Key 的相似程度,同时又相加权重为 1也就是我们的注意力分数了。最后我们再将得到的注意力分数和值向量做对应乘积即可。根据上述过程我们就可以得到注意力机制计算的基本公式 这样,得到的向量就能够反映 Query 和每一个 Key 的相似程度,同时又相加权重为 1也就是我们的注意力分数了。最后我们再将得到的注意力分数和值向量做对应乘积即可。根据上述过程我们就可以得到注意力机制计算的基本公式