docs(chapter3): 修正T5模型中RMSNorm公式的描述和参数说明

This commit is contained in:
KMnO4-zx
2025-06-21 13:36:42 +08:00
parent fc19776feb
commit b421894dcc

View File

@@ -260,14 +260,14 @@ T5 的 Self-Attention 机制和 BERT 的 Attention 机制是一样的,都是
与原始 Transformer 模型不同T5 模型的LayerNorm 采用了 RMSNorm通过计算每个神经元的均方根Root Mean Square来归一化每个隐藏层的激活值。RMSNorm 的参数设置与Layer Normalization 相比更简单只有一个可调参数可以更好地适应不同的任务和数据集。RMSNorm函数可以用以下数学公式表示
$$
\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}w_i^2 + \epsilon}}
\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}x_i^2 + \epsilon}} \cdot \gamma
$$
其中:
- \( $x$ \) 是层的输入。
- \( $w_i$ \) 代表层的权重。
- \( $n$ \) 是权重的数量
- \( $\epsilon$ \) 是一个小常数,用于数值稳定性(以避免除以零的情况)
- $x_i$ 是输入向量的第 $i$ 个元素
- $\gamma$ 是可学习的缩放参数
- $n$ 是输入向量的维度数量
- $\epsilon$ 是一个小常数,用于数值稳定性(以避免除以零的情况)
这种归一化有助于通过确保权重的规模不会变得过大或过小来稳定学习过程,这在具有许多层的深度学习模型中特别有用。