docs(chapter5): 修正RMSNorm公式中的变量和描述

- 将公式中的权重变量 $w_i$ 改为输入变量 $x_i$ 以匹配实际实现
- 添加可学习的缩放参数 $\gamma$ 到公式中
- 更新变量描述使其更准确
This commit is contained in:
KMnO4-zx
2025-06-05 10:54:45 +08:00
parent 52ebcdd0a3
commit 04e14a978b

View File

@@ -51,14 +51,14 @@ class ModelConfig(PretrainedConfig):
`RMSNorm`可以用如下的数学公式表示:
$$
\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}w_i^2 + \epsilon}}
\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}x_i^2 + \epsilon}} \cdot \gamma
$$
其中:
- ( $x$ ) 是层的输入。
- ( $w_i$ ) 代表层的权重。
- ( $n$ ) 是权重的数量
- ( $\epsilon$ ) 是一个小常数,用于数值稳定性(以避免除以零的情况)
- $x_i$ 是输入向量的第 $i$ 个元素
- $\gamma$ 是可学习的缩放参数(对应代码中的 `self.weight`
- $n$ 是输入向量的维度数量
- $\epsilon$ 是一个小常数,用于数值稳定性(以避免除以零的情况)
这种归一化有助于通过确保权重的规模不会变得过大或过小来稳定学习过程,这在具有许多层的深度学习模型中特别有用。