do something of gpt
This commit is contained in:
16
README.md
16
README.md
@@ -2,7 +2,7 @@
|
||||
|
||||
## 大纲
|
||||
|
||||
### 第一章 NLP 基础概念 志学
|
||||
### 第一章 NLP 基础概念 志学 Done
|
||||
- 1.1 什么是 NLP
|
||||
- 1.2 NLP 发展历程
|
||||
- 1.3 NLP 任务
|
||||
@@ -21,8 +21,8 @@
|
||||
- 1.4.3 Word2Vec
|
||||
- 1.4.4 ELMo
|
||||
|
||||
### 第二章 基础架构-Transformer 雨衡
|
||||
- 2.1 注意力机制
|
||||
### 第二章 基础架构-Transformer 雨衡 Done
|
||||
- 2.1 注意力机制
|
||||
- 2.1.1 注意力机制详解
|
||||
- 2.1.2 自注意力与多头注意力
|
||||
- 2.1.3 注意力掩码与因果注意力
|
||||
@@ -37,14 +37,14 @@
|
||||
- 2.3.4 Transformer 中的其他结构
|
||||
|
||||
### 第三章 预训练语言模型
|
||||
- 3.1 Encoder-Only PLM 雨衡
|
||||
- 3.1 Encoder-Only PLM 雨衡 Done
|
||||
- 3.1.1 BERT
|
||||
- (1)模型架构:Encoder Only
|
||||
- (2)预训练任务
|
||||
- (3)针对下游任务微调
|
||||
- 3.1.2 RoBERTa
|
||||
- 3.1.3 ALBERT
|
||||
- 3.2 Encoder-Decoder PLM 志学
|
||||
- 3.2 Encoder-Decoder PLM 志学
|
||||
- 3.2.1 T5
|
||||
- (1)模型架构:Encoder-Decoder
|
||||
- (2)预训练任务
|
||||
@@ -72,8 +72,8 @@
|
||||
- (1)模型架构:MoE
|
||||
- (2)MoE 架构的核心优势
|
||||
|
||||
### 第四章 大语言模型 雨衡
|
||||
- 4.1 什么是 LLM Done
|
||||
### 第四章 大语言模型 雨衡 Done
|
||||
- 4.1 什么是 LLM
|
||||
- 4.1.1 LLM 的定义
|
||||
- 4.1.2 LLM 的能力
|
||||
- 4.1.3 LLM 的特点
|
||||
@@ -83,7 +83,7 @@
|
||||
- 4.2.3 RLHF
|
||||
|
||||
### 第五章 预训练一个 LLM 志学
|
||||
- 5.1 模型架构-LLaMA
|
||||
- 5.1 模型架构-LLaMA Done
|
||||
- 5.1.1 LLaMA Attention
|
||||
- 5.1.2 LLaMA Decoder Layer
|
||||
- 5.1.3 LLaMA MLP
|
||||
|
||||
22
docs/chapter3/3.3 Decoder-Only.md
Normal file
22
docs/chapter3/3.3 Decoder-Only.md
Normal file
@@ -0,0 +1,22 @@
|
||||
# 3.3 Decoder-Only PLM
|
||||
|
||||
在前两节中,我们分别讲解了由 Transformer 发展而来的两种模型架构——以 BERT 为代表的 Encoder-Only 模型和以 T5 为代表的 Encoder-Decoder 模型。那么,很自然可以想见,除了上述两种架构,还可以有一种模型架构——Decoder-Only,即只使用 Decoder 堆叠而成的模型。
|
||||
|
||||
事实上,Decoder-Only 就是目前大火的 LLM 的基础架构,目前所有的 LLM 基本都是 Decoder-Only 模型(RWKV、Mamba 等非 Transformer 架构除外)。而引发 LLM 热潮的 ChatGPT,正是 Decoder-Only 系列的代表模型 GPT 系列模型的大成之作。而目前作为开源 LLM 基本架构的 LLaMA 模型,也正是在 GPT 的模型架构基础上优化发展而来。因此,在本节中,我们不但会详细分析 Decoder-Only 代表模型 GPT 的原理、架构和特点,还会深入到目前的主流开源 LLM,分析它们的结构、特点,结合之前对 Transformer 系列其他模型的分析,帮助大家深入理解当下被寄予厚望、被认为是 AGI 必经之路的 LLM 是如何一步步从传统 PLM 中发展而来的。
|
||||
|
||||
首先,让我们学习打开 LLM 世界大门的代表模型——由 OpenAI 发布的 GPT。
|
||||
|
||||
## 3.3.1 GPT
|
||||
|
||||
GPT,即 Generative Pre-Training Language Model,是由 OpenAI 团队于 2018年发布的预训练语言模型。虽然学界普遍认可 BERT 作为预训练语言模型时代的代表,但首先明确提出预训练-微调思想的模型其实是 GPT。GPT 提出了通用预训练的概念,也就是在海量无监督语料上预训练,进而在每个特定任务上进行微调,从而实现这些任务的巨大收益。虽然在发布之初,由于性能略输于不久后发布的 BERT,没能取得轰动性成果,也没能让 GPT 所使用的 Decoder-Only 架构成为学界研究的主流,但 OpenAI 团队坚定地选择了不断扩大预训练数据、增加模型参数,在 GPT 架构上不断优化,最终在 2020年发布的 GPT-3 成就了 LLM 时代的基础,并以 GPT-3 为基座模型的 ChatGPT 成功打开新时代的大门,成为 LLM 时代的最强竞争者也是目前的最大赢家。
|
||||
|
||||
本节将以 GPT 为例,分别从模型架构、预训练任务、GPT 系列模型的发展历程等三个方面深入分析 GPT 及其代表的 Decoder-Only 模型,并进一步引出当前的主流 LLM 架构——LLaMA。
|
||||
|
||||
### 3.3.2 模型架构——Decoder Only
|
||||
|
||||

|
||||
|
||||
|
||||
**参考资料**
|
||||
|
||||
1. [Improving Language Understanding by Generative Pre-Training](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf)
|
||||
BIN
docs/chapter3/figures/3-0.png
Normal file
BIN
docs/chapter3/figures/3-0.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 172 KiB |
Reference in New Issue
Block a user