docs：add docsify deploy

2025-05-25 00:02:24 +08:00
parent 40dc5de2fc
commit f9fe12d99a
62 changed files with 225 additions and 69 deletions
--- a/docs/chapter3/第三章预训练语言模型.md
+++ b/docs/chapter3/第三章预训练语言模型.md
@@ -26,7 +26,7 @@ BERT 是一个统一了多种思想的预训练模型。其所沿承的核心思
 BERT 的模型架构是取了 Transformer 的 Encoder 部分堆叠而成，其主要结构如图3.1所示：

 <div align="center">
-  <img src="./figures/1-0.png" alt="图片描述" width="100%"/>
+  <img src="../images/3-figures/1-0.png" alt="图片描述" width="100%"/>
  <p>图3.1 BERT 模型结构</p>
 </div>

@@ -35,7 +35,7 @@ BERT 是针对于 NLU 任务打造的预训练模型，其输入一般是文本
 模型整体既是由 Embedding、Encoder 加上 prediction_heads 组成：

 <div align="center">
-  <img src="./figures/1-1.png" alt="图片描述" width="70%"/>
+  <img src="../images/3-figures/1-1.png" alt="图片描述" width="70%"/>
  <p>图3.2 BERT 模型简略结构</p>
 </div>

@@ -44,21 +44,21 @@ BERT 是针对于 NLU 任务打造的预训练模型，其输入一般是文本
 prediction_heads 其实就是线性层加上激活函数，一般而言，最后一个线性层的输出维度和任务的类别数相等，如图3.3所示：

 <div align="center">
-  <img src="./figures/1-5.png" alt="图片描述" width="20%"/>
+  <img src="../images/3-figures/1-5.png" alt="图片描述" width="20%"/>
  <p>图3.3 prediction_heads 结构</p>
 </div>

 而每一层 Encoder Layer 都是和 Transformer 中的 Encoder Layer 结构类似的层，如图3.4所示：

 <div align="center">
-  <img src="./figures/1-2.png" alt="图片描述" width="40%"/>
+  <img src="../images/3-figures/1-2.png" alt="图片描述" width="40%"/>
  <p>图3.4 Encoder Layer 结构</p>
 </div>

 如图3.5所示，已经通过 Embedding 层映射的 hidden_states 进入核心的 attention 机制，然后通过残差连接的机制和原输入相加，再经过一层 Intermediate 层得到最终输出。Intermediate 层是 BERT 的特殊称呼，其实就是一个线性层加上激活函数：

 <div align="center">
-  <img src="./figures/1-3.png" alt="图片描述" width="40%"/>
+  <img src="../images/3-figures/1-3.png" alt="图片描述" width="40%"/>
  <p>图3.5 Intermediate 结构</p>
 </div>

@@ -71,7 +71,7 @@ GELU 的核心思路为将随机正则的思想引入激活函数，通过输入
 BERT 的 注意力机制和 Transformer 中 Encoder 的 自注意力机制几乎完全一致，但是 BERT 将相对位置编码融合在了注意力机制中，将相对位置编码同样视为可训练的权重参数，如图3.6所示：

 <div align="center">
-  <img src="./figures/1-4.png" alt="图片描述" width="40%"/>
+  <img src="../images/3-figures/1-4.png" alt="图片描述" width="40%"/>
  <p>图3.6 BERT 注意力机制结构</p>
 </div>

@@ -230,14 +230,14 @@ T5 的大一统思想将不同的 NLP 任务如文本分类、问答、翻译等
 BERT 采用了 Encoder-Only 结构，只包含编码器部分；而 GPT 采用了 Decoder-Only 结构，只包含解码器部分。T5 则采用了 Encoder-Decoder 结构，其中编码器和解码器都是基于 Transformer 架构设计。编码器用于处理输入文本，解码器用于生成输出文本。编码器和解码器之间通过注意力机制进行信息交互，从而实现输入文本到输出文本的转换。其主要结构如图3.7所示：

 <div align="center">
-  <img src="./figures/2-1.png" alt="图片描述" width="100%"/>
+  <img src="../images/3-figures/2-1.png" alt="图片描述" width="100%"/>
  <p>图3.7 T5 模型详细结构</p>
 </div>

 如图3.8所示，从整体来看 T5 的模型结构包括 Tokenizer 部分和 Transformer 部分。Tokenizer 部分主要负责将输入文本转换为模型可接受的输入格式，包括分词、编码等操作。Transformer 部分又分为 EncoderLayers 和 DecoderLayers 两部分，他们分别由一个个小的 Block组成，每个 Block 包含了多头注意力机制、前馈神经网络和 Norm 层。Block 的设计可以使模型更加灵活，像乐高一样可以根据任务的复杂程度和数据集的大小来调整 Block 的数量和层数。

 <div align="center">
-  <img src="./figures/2-2.png" alt="图片描述" width="70%"/>
+  <img src="../images/3-figures/2-2.png" alt="图片描述" width="70%"/>
  <p>图3.8 T5 模型整体结构</p>
 </div>

@@ -246,14 +246,14 @@ T5 模型的 Encoder 和 Decoder 部分都是基于 Transformer 架构设计的
 和 Encoder 不一样的是，在 Decoder 中还包含了 Encoder-Decoder Attention 结构，用于捕捉输入和输出序列之间的依赖关系。这两种 Attention 结构几乎完全一致，只有在位置编码和 Mask 机制上有所不同。如图3.9所示，Encoder 和 Decoder 的结构如下：

 <div align='center'>
-    <img src="./figures/2-3.png" alt="alt text" width="50%">
+    <img src="../images/3-figures/2-3.png" alt="alt text" width="50%">
    <p>图3.9 Encoder 和 Decoder</p>
 </div>

 T5 的 Self-Attention 机制和 BERT 的 Attention 机制是一样的，都是基于 Self-Attention 机制设计的。Self-Attention 机制是一种全局依赖关系建模方法，通过计算 Query、Key 和 Value 之间的相似度来捕捉输入序列中的全局依赖关系。Encoder-Decoder Attention 仅仅在位置编码和 Mask 机制上有所不同，主要是为了区分输入和输出序列。如图3.10所示，Self-Attention 结构如下：

 <div align='center'>
-    <img src="./figures/2-4.png" alt="alt text" width="50%">
+    <img src="../images/3-figures/2-4.png" alt="alt text" width="50%">
    </p>图3.10 Self-Attention 结构</p>
 </div>

@@ -298,7 +298,7 @@ T5通过大规模的文本数据进行预训练，然后在具体任务上进行
 我们可以通过图3.11，更加直观地理解 T5 的大一统思想：

 <div align='center'>
-    <img src="./figures/2-0.png" alt="alt text" width="90%">
+    <img src="../images/3-figures/2-0.png" alt="alt text" width="90%">
    <p>图3.11 T5 的大一统思想</p>
 </div>

@@ -323,7 +323,7 @@ GPT，即 Generative Pre-Training Language Model，是由 OpenAI 团队于 2018
 #### （1） 模型架构——Decoder Only

 <div align='center'>
-    <img src="./figures/3-0.png" alt="alt text" width="100%">
+    <img src="../images/3-figures/3-0.png" alt="alt text" width="100%">
    <p>图3.12 GPT 模型结构</p>
 </div>

@@ -394,7 +394,7 @@ LLaMA模型是由Meta（前Facebook）开发的一系列大型预训练语言模
 与GPT系列模型一样，LLaMA模型也是基于Decoder-Only架构的预训练语言模型。LLaMA模型的整体结构与GPT系列模型类似，只是在模型规模和预训练数据集上有所不同。如图3.13是LLaMA模型的架构示意图：

 <div align='center'>
-    <img src="./figures/3-1.png" alt="alt text" width="100%">
+    <img src="../images/3-figures/3-1.png" alt="alt text" width="100%">
    <p>图3.13 LLaMA-3 模型结构</p>
 </div>

@@ -460,7 +460,7 @@ GLM 通过优化一个自回归空白填充任务来实现 MLM 与 CLM 思想的
 通过将 MLM 与 CLM 思想相结合，既适配逐个 token 生成的生成类任务，也迫使模型从前后两个方向学习输入文本的隐含关系从而适配了理解类任务。使用 GLM 预训练任务产出的 GLM 模型，在一定程度上展现了其超出同体量 BERT 系模型的优越性能：

 <div align='center'>
-    <img src="./figures/3-2.png" alt="alt text" width="90%">
+    <img src="../images/3-figures/3-2.png" alt="alt text" width="90%">
    <p>图3.14 alt text</p>
 </div>

@@ -479,7 +479,7 @@ ChatGLM3-6B 发布于 23年 10月，相对于二代在语义、数学、推理
 图3.15展示了 GLM 系列模型在基准集上的表现演进：

 <div align='center'>
-    <img src="./figures/3-3.png" alt="alt text" width="90%">
+    <img src="../images/3-figures/3-3.png" alt="alt text" width="90%">
    <p>图3.15 alt text</p>
 </div>