Files
happy-llm/docs/chapter3/3.2 Eocoder-Decoder.md

2.4 KiB
Raw Blame History

3.2 Encoder-Decoder PLM

在上一节,我们学习了 Encoder-Only 结构的模型,主要介绍了 BERT 的模型架构、预训练任务和下游任务微调。BERT 是一个基于 Transformer 的 Encoder-Only 模型,通过预训练任务 MLM 和 NSP 来学习文本的双向语义关系从而在下游任务中取得了优异的性能。但是BERT 也存在一些问题,例如 MLM 任务和下游任务微调的不一致性,以及无法处理超过模型训练长度的输入等问题。为了解决这些问题,研究者们提出了 Encoder-Decoder 模型,通过引入 Decoder 部分来解决这些问题,同时也为 NLP 领域带来了新的思路和方法。

在本节中,我们将学习 Encoder-Decoder 结构的模型,主要介绍 T5 的模型架构和预训练任务,以及 T5 模型首次提出的 NLP 大一统思想。

3.2.1 T5

T5Text-To-Text Transfer Transformer是由 Google 提出的一种预训练语言模型,通过将所有 NLP 任务统一表示为文本到文本的转换问题大大简化了模型设计和任务处理。T5 基于 Transformer 架构,包含编码器和解码器两个部分,使用自注意力机制和多头注意力捕捉全局依赖关系,利用相对位置编码处理长序列中的位置信息,并在每层中包含前馈神经网络进一步处理特征。

T5 的大一统思想将不同的 NLP 任务如文本分类、问答、翻译等统一表示为输入文本到输出文本的转换这种方法简化了模型设计、参数共享和训练过程提高了模型的泛化能力和效率。通过这种统一处理方式T5不仅减少了任务特定的模型调试工作还能够使用相同的数据处理和训练框架极大地提升了多任务学习的性能和应用的便捷性。

alt text

图片出自参考文献 [1]

1模型结构Encoder-Decoder

T5 模型采用了 Encoder-Decoder 结构,其中编码器和解码器都是基于 Transformer 架构设计的。编码器用于处理输入文本,解码器用于生成输出文本。编码器和解码器之间通过注意力机制进行信息交互,从而实现输入文本到输出文本的转换。其主要结构如下所示:

参考文献

  1. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer