diff --git a/docs/chapter3/第三章 预训练语言模型.md b/docs/chapter3/第三章 预训练语言模型.md index 6cda07a..8213234 100644 --- a/docs/chapter3/第三章 预训练语言模型.md +++ b/docs/chapter3/第三章 预训练语言模型.md @@ -260,14 +260,14 @@ T5 的 Self-Attention 机制和 BERT 的 Attention 机制是一样的,都是 与原始 Transformer 模型不同,T5 模型的LayerNorm 采用了 RMSNorm,通过计算每个神经元的均方根(Root Mean Square)来归一化每个隐藏层的激活值。RMSNorm 的参数设置与Layer Normalization 相比更简单,只有一个可调参数,可以更好地适应不同的任务和数据集。RMSNorm函数可以用以下数学公式表示: $$ -\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}w_i^2 + \epsilon}} +\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}x_i^2 + \epsilon}} \cdot \gamma $$ 其中: -- \( $x$ \) 是层的输入。 -- \( $w_i$ \) 代表层的权重。 -- \( $n$ \) 是权重的数量。 -- \( $\epsilon$ \) 是一个小常数,用于数值稳定性(以避免除以零的情况)。 +- $x_i$ 是输入向量的第 $i$ 个元素 +- $\gamma$ 是可学习的缩放参数 +- $n$ 是输入向量的维度数量 +- $\epsilon$ 是一个小常数,用于数值稳定性(以避免除以零的情况) 这种归一化有助于通过确保权重的规模不会变得过大或过小来稳定学习过程,这在具有许多层的深度学习模型中特别有用。