diff --git a/README.md b/README.md index 3efbb39..d8520c7 100644 --- a/README.md +++ b/README.md @@ -44,13 +44,13 @@ - (3)针对下游任务微调 - 3.1.2 RoBERTa - 3.1.3 ALBERT - - 3.1.4 XLNet - 3.2 Encoder-Decoder PLM 志学 - 3.2.1 T5 - (1)模型架构:Encoder-Decoder - (2)预训练任务 - (3)大一统思想 - 3.2.2 BART + - 3.2.3 XLNet - 3.3 Decoder-Only PLM - 3.3.1 GPT - (1)模型架构:Decoder Only diff --git a/docs/chapter3/3.2 Eocoder-Decoder.md b/docs/chapter3/3.2 Eocoder-Decoder.md new file mode 100644 index 0000000..34ad2d8 --- /dev/null +++ b/docs/chapter3/3.2 Eocoder-Decoder.md @@ -0,0 +1,15 @@ +# 3.2 Encoder-Decoder PLM + +在上一节,我们学习了 Encoder-Only 结构的模型,主要介绍了 BERT 的模型架构、预训练任务和下游任务微调。BERT 是一个基于 Transformer 的 Encoder-Only 模型,通过预训练任务 MLM 和 NSP 来学习文本的双向语义关系,从而在下游任务中取得了优异的性能。但是,BERT 也存在一些问题,例如 MLM 任务和下游任务微调的不一致性,以及无法处理超过模型训练长度的输入等问题。为了解决这些问题,研究者们提出了 Encoder-Decoder 模型,通过引入 Decoder 部分来解决这些问题,同时也为 NLP 领域带来了新的思路和方法。 + +在本节中,我们将学习 Encoder-Decoder 结构的模型,主要介绍 T5 的模型架构和预训练任务,以及 T5 模型首次提出的 NLP 大一统思想。 + +## 3.2.1 T5 + +T5(Text-To-Text Transfer Transformer)是由 Google 提出的一种预训练语言模型,通过将所有 NLP 任务统一表示为文本到文本的转换问题,大大简化了模型设计和任务处理。T5 基于 Transformer 架构,包含编码器和解码器两个部分,使用自注意力机制和多头注意力捕捉全局依赖关系,利用相对位置编码处理长序列中的位置信息,并在每层中包含前馈神经网络进一步处理特征。 + +T5 的大一统思想将不同的 NLP 任务如文本分类、问答、翻译等统一表示为输入文本到输出文本的转换,这种方法简化了模型设计、参数共享和训练过程,提高了模型的泛化能力和效率。通过这种统一处理方式,T5不仅减少了任务特定的模型调试工作,还能够使用相同的数据处理和训练框架,极大地提升了多任务学习的性能和应用的便捷性。 + +![alt text](./figures/2-0.png) + +### (1)模型结构:Encoder-Decoder diff --git a/docs/chapter3/figures/2-0.png b/docs/chapter3/figures/2-0.png new file mode 100644 index 0000000..2960c8e Binary files /dev/null and b/docs/chapter3/figures/2-0.png differ