diff --git a/docs/chapter6/images/3-1.jpg b/docs/chapter6/images/3-1.jpg new file mode 100644 index 0000000..a73c371 Binary files /dev/null and b/docs/chapter6/images/3-1.jpg differ diff --git a/docs/chapter6/images/3-2.jpg b/docs/chapter6/images/3-2.jpg new file mode 100644 index 0000000..284bd12 Binary files /dev/null and b/docs/chapter6/images/3-2.jpg differ diff --git a/docs/chapter6/第六章 大模型训练流程实践.md b/docs/chapter6/第六章 大模型训练流程实践.md index 4af6c0e..6ad996b 100644 --- a/docs/chapter6/第六章 大模型训练流程实践.md +++ b/docs/chapter6/第六章 大模型训练流程实践.md @@ -766,7 +766,7 @@ trainer.save_model() 具体而言,其在预训练模型每层中插入用于下游任务的参数,即 Adapter 模块,在微调时冻结模型主体,仅训练特定于任务的参数。 -![Adapter](./figures/4-1.jpg) +![Adapter](./images/3-1.jpg) 每个 Adapter 模块由两个前馈子层组成,第一个前馈子层将 Transformer 块的输出作为输入,将原始输入维度 $d$ 投影到 $m$,通过控制 $m$ 的大小来限制 Adapter 模块的参数量,通常情况下 $m << d$。在输出阶段,通过第二个前馈子层还原输入维度,将 $m$ 重新投影到 $d$,作为 Adapter 模块的输出(如上图右侧结构)。 @@ -815,7 +815,7 @@ $$h = W_0 x + \Delta W x = W_0 x + B A x$$ 训练思路如图: -![LoRA](./figures/4-2.png) +![LoRA](./images/3-2.png) #### (2)应用于 Transformer