docs:add docsify deploy
This commit is contained in:
@@ -96,7 +96,7 @@ LLM 的强大能力也为其带来了跨模态的强大表现。随着 LLM 的
|
||||
在上一节,我们分析了 LLM 的定义及其特有的强大能力,通过更大规模的参数和海量的训练语料获得远超传统预训练模型的涌现能力,展现出强大的上下文学习、指令遵循及逐步推理能力,带来 NLP 领域的全新变革。那么,通过什么样的步骤,我们才可以训练出一个具有涌现能力的 LLM 呢?训练一个 LLM,与训练传统的预训练模型,又有什么区别?
|
||||
|
||||
<div align='center'>
|
||||
<img src="./figures/2-0.jpg" alt="alt text" width="90%">
|
||||
<img src="../images/4-figures/2-0.jpg" alt="alt text" width="90%">
|
||||
<p>图4.1 训练 LLM 的三个阶段</p>
|
||||
</div>
|
||||
|
||||
@@ -128,7 +128,7 @@ GPT-3|96|12288|96|175B|300B
|
||||
也正因如此,分布式训练框架也成为 LLM 训练必不可少的组成部分。分布式训练框架的核心思路是数据并行和模型并行。所谓数据并行,是指训练模型的尺寸可以被单个 GPU 内存容纳,但是由于增大训练的 batch_size 会增大显存开销,无法使用较大的 batch_size 进行训练;同时,训练数据量非常大,使用单张 GPU 训练时长难以接受。
|
||||
|
||||
<div align='center'>
|
||||
<img src="./figures/2-1.jpg" alt="alt text" width="60%">
|
||||
<img src="../images/4-figures/2-1.jpg" alt="alt text" width="60%">
|
||||
<p>图4.2 模型、数据并行</p>
|
||||
</div>
|
||||
|
||||
@@ -137,7 +137,7 @@ GPT-3|96|12288|96|175B|300B
|
||||
但是,当 LLM 扩大到上百亿参数,单张 GPU 内存往往就无法存放完整的模型参数。如图4.3所示,在这种情况下,可以将模型拆分到多个 GPU 上,每个 GPU 上存放不同的层或不同的部分,从而实现模型并行。
|
||||
|
||||
<div align='center'>
|
||||
<img src="./figures/2-2.jpg" alt="alt text" width="30%">
|
||||
<img src="../images/4-figures/2-2.jpg" alt="alt text" width="30%">
|
||||
<p>图4.3 模型并行</p>
|
||||
</div>
|
||||
|
||||
@@ -297,7 +297,7 @@ RLHF,全称是 Reinforcement Learning from Human Feedback,即人类反馈强
|
||||
如图4.4所示,ChatGPT 在技术报告中将对齐分成三个阶段,后面两个阶段训练 RM 和 PPO 训练,就是 RLHF 的步骤:
|
||||
|
||||
<div align='center'>
|
||||
<img src="./figures/2-3.png" alt="alt text" width="100%">
|
||||
<img src="../images/4-figures/2-3.png" alt="alt text" width="100%">
|
||||
<p>图4.4 ChatGPT 训练三个的阶段</p>
|
||||
</div>
|
||||
|
||||
@@ -331,7 +331,7 @@ RM,Reward Model,即奖励模型。RM 是用于拟合人类偏好,来给 LL
|
||||
在具体 PPO 训练过程中,会存在四个模型。如图4.5所示,两个 LLM 和两个 RM。两个 LLM 分别是进行微调、参数更新的 actor model 和不进行参数更新的 ref model,均是从 SFT 之后的 LLM 初始化的。两个 RM 分别是进行参数更新的 critic model 和不进行参数更新的 reward model,均是从上一步训练的 RM 初始化的。
|
||||
|
||||
<div align='center'>
|
||||
<img src="./figures/2-4.jpg" alt="alt text" width="100%">
|
||||
<img src="../images/4-figures/2-4.jpg" alt="alt text" width="100%">
|
||||
<p>图4.5 PPO 训练流程</p>
|
||||
</div>
|
||||
|
||||
|
||||
Reference in New Issue
Block a user