chore: Update README.md with Encoder-Decoder PLM details
This commit is contained in:
@@ -44,13 +44,13 @@
|
||||
- (3)针对下游任务微调
|
||||
- 3.1.2 RoBERTa
|
||||
- 3.1.3 ALBERT
|
||||
- 3.1.4 XLNet
|
||||
- 3.2 Encoder-Decoder PLM 志学
|
||||
- 3.2.1 T5
|
||||
- (1)模型架构:Encoder-Decoder
|
||||
- (2)预训练任务
|
||||
- (3)大一统思想
|
||||
- 3.2.2 BART
|
||||
- 3.2.3 XLNet
|
||||
- 3.3 Decoder-Only PLM
|
||||
- 3.3.1 GPT
|
||||
- (1)模型架构:Decoder Only
|
||||
|
||||
15
docs/chapter3/3.2 Eocoder-Decoder.md
Normal file
15
docs/chapter3/3.2 Eocoder-Decoder.md
Normal file
@@ -0,0 +1,15 @@
|
||||
# 3.2 Encoder-Decoder PLM
|
||||
|
||||
在上一节,我们学习了 Encoder-Only 结构的模型,主要介绍了 BERT 的模型架构、预训练任务和下游任务微调。BERT 是一个基于 Transformer 的 Encoder-Only 模型,通过预训练任务 MLM 和 NSP 来学习文本的双向语义关系,从而在下游任务中取得了优异的性能。但是,BERT 也存在一些问题,例如 MLM 任务和下游任务微调的不一致性,以及无法处理超过模型训练长度的输入等问题。为了解决这些问题,研究者们提出了 Encoder-Decoder 模型,通过引入 Decoder 部分来解决这些问题,同时也为 NLP 领域带来了新的思路和方法。
|
||||
|
||||
在本节中,我们将学习 Encoder-Decoder 结构的模型,主要介绍 T5 的模型架构和预训练任务,以及 T5 模型首次提出的 NLP 大一统思想。
|
||||
|
||||
## 3.2.1 T5
|
||||
|
||||
T5(Text-To-Text Transfer Transformer)是由 Google 提出的一种预训练语言模型,通过将所有 NLP 任务统一表示为文本到文本的转换问题,大大简化了模型设计和任务处理。T5 基于 Transformer 架构,包含编码器和解码器两个部分,使用自注意力机制和多头注意力捕捉全局依赖关系,利用相对位置编码处理长序列中的位置信息,并在每层中包含前馈神经网络进一步处理特征。
|
||||
|
||||
T5 的大一统思想将不同的 NLP 任务如文本分类、问答、翻译等统一表示为输入文本到输出文本的转换,这种方法简化了模型设计、参数共享和训练过程,提高了模型的泛化能力和效率。通过这种统一处理方式,T5不仅减少了任务特定的模型调试工作,还能够使用相同的数据处理和训练框架,极大地提升了多任务学习的性能和应用的便捷性。
|
||||
|
||||

|
||||
|
||||
### (1)模型结构:Encoder-Decoder
|
||||
BIN
docs/chapter3/figures/2-0.png
Normal file
BIN
docs/chapter3/figures/2-0.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 62 KiB |
Reference in New Issue
Block a user