finish gpt

This commit is contained in:
logan
2024-07-14 14:39:49 +08:00
parent c85ff0a33d
commit fb6396e8ed

View File

@@ -42,7 +42,41 @@ CLM 可以看作 N-gram 语言模型的一个直接扩展。N-gram 语言模型
在前面我们说过BERT 之所以可以采用预训练+微调的范式取得重大突破,正是因为其选择的 MLM、NSP 可以在海量无监督语料上直接训练——而很明显CLM 是更直接的预训练任务,其天生和人类书写自然语言文本的习惯相契合,也和下游任务直接匹配,相对于 MLM 任务更加直接可以在任何自然语言文本上直接应用。因此CLM 也可以使用海量的自然语言语料进行大规模的预训练。
#### 3GPT 系列模型的发展
自 GPT-1 推出开始OpenAI 一直坚信 Decoder-Only 的模型结构和“体量即正义”的优化思路,不断扩大预训练数据集、模型体量并对模型做出一些小的优化和修正,来不断探索更强大的预训练模型。从被 BERT 压制的 GPT-1到没有引起足够关注的 GPT-2再到激发了涌现能力、带来大模型时代的 GPT-3最后带来了跨时代的 ChatGPTOpenAI 通过数十年的努力证明了其思路的正确性。
下表总结了从 GPT-1 到 GPT-3 的模型结构、预训练语料大小的变化:
模型 | Decoder Layer | Hidden_size | 注意力头数 | 注意力维度 | 总参数量 | 预训练语料
---- | --------------|------------|------------|----------|----------|----------
GPT-1|12|3072|12|768|0.12B|5GB
GPT-2|48|6400|25|1600|1.5B|40GB
GPT-3|96|49152|96|12288|175B|570GB
GPT-1 是 GPT 系列的开山之作,也是第一个使用 Decoder-Only 的预训练模型。但是GPT-1 的模型体量和预训练数据都较少,沿承了传统 Transformer 的模型结构,使用了 12层 Decoder Block 和 768 的隐藏层维度,模型参数量仅有 1.17亿0.12B),在大小为 5GB 的 BooksCorpus 数据集上预训练得到。可以看到GPT-1 的参数规模与预训练规模和 BERT-base 是大致相当的,但其表现相较于 BERT-base 却有所不如,这也是 GPT 系列模型没能成为预训练语言模型时代的代表的原因。
GPT-2 则是 OpenAI 在 GPT-1 的基础上进一步探究预训练语言模型多任务学习能力的产物。GPT-2 的模型结构和 GPT-1 大致相当,只是扩大了模型参数规模、将 Post-Norm 改为了 Pre-Norm也就是先进行 LayerNorm 计算,再进入注意力层计算)。这些改动的核心原因在于,由于模型层数增加、体量增大,梯度消失和爆炸的风险也不断增加,为了使模型梯度更稳定对上述结构进行了优化。
GPT-2 的核心改进是大幅增加了预训练数据集和模型体量。GPT-2 的 Decoder Block 层数达到了48注意GPT-2 共发布了四种规格的模型,此处我们仅指规格最大的 GPT-2 模型),隐藏层维度达到了 1600模型整体参数量达 15亿1.5B),使用了自己抓取的 40GB 大小的 WebText 数据集进行预训练,不管是模型结构还是预训练大小都超过了 1代一个数量级。
GPT-2 的另一个重大突破是以 zero-shot零样本学习为主要目标也就是不对模型进行微调直接要求模型解决任务。例如在传统的预训练-微调范式中,我们要解决一个问题,一般需要收集几百上千的训练样本,在这些训练样本上微调预训练语言模型来实现该问题的解决。而 zero-shot 则强调不使用任何训练样本直接通过向预训练语言模型描述问题来去解决该问题。zero-shot 的思路自然是比预训练-微调范式更进一步、更高效的自然语言范式,但是在 GPT-2 的时代,模型能力还不足够支撑较好的 zero-shot 效果在大模型时代zero-shot 及其延伸出的 few-shot少样本学习才开始逐渐成为主流。
GPT-3 则是更进一步展示了 OpenAI“力大砖飞”的核心思路也是 LLM 的开创之作。在 GPT-2 的基础上OpenAI 进一步增大了模型体量和预训练数据量,整体参数量达 175B是当之无愧的“大型语言模型”。在模型结构上基本没有大的改进只是由于巨大的模型体量使用了稀疏注意力机制来取代传统的注意力机制。在预训练数据上则是分别从 CC、WebText、维基百科等大型语料集中采样共采样了 45T、清洗后 570GB 的数据。根据推算GPT-3 需要在 1024张 A10080GB 显存)的分布式训练集群上训练 1个月。
之所以说 GPT-3 是 LLM 的开创之作,除去其巨大的体量带来了涌现能力的凸显外,还在于其提出了 few-shot 的重要思想。few-shot 是在 zero-shot 上的改进,研究者发现即使是 175B 大小的 GPT-3想要在 zero-shot 上取得较好的表现仍然是一件较为困难的事情。而 few-shot 是对 zero-shot 的一个折中旨在提供给模型少样的示例来教会它完成任务。few-shot 一般会在 prompt也就是模型的输入中增加 3~5个示例来帮助模型理解。例如对于情感分类任务
zero-shot请你判断这真是一个绝佳的机会的情感是正向还是负向如果是正向输出1否则输出0
few-shot请你判断这真是一个绝佳的机会的情感是正向还是负向如果是正向输出1否则输出0。你可以参考以下示例来判断你的表现非常好——1太糟糕了——0真是一个好主意——1。
通过给模型提供少量示例,模型可以取得远好于 zero-shot 的良好表现。few-shot 也被称为上下文学习In-context Learning即让模型从提供的上下文中的示例里学习问题的解决方法。GPT-3 在 few-shot 上展现的强大能力,为 NLP 的突破带来了重要进展。如果对于绝大部分任务都可以通过人为构造 3~5个示例就能让模型解决其效率将远高于传统的预训练-微调范式,意味着 NLP 的进一步落地应用成为可能——而这,也正是 LLM 的核心优势。
在 GPT 系列模型的基础上,通过引入预训练-指令微调-人类反馈强化学习的三阶段训练OpenAI 发布了跨时代的 ChatGPT引发了大模型的热潮。也正是在 GPT-3 及 ChatGPT 的基础上LLaMA、ChatGLM 等模型的发布进一步揭示了 LLM 的无尽潜力。在下一节,我们将深入剖析目前 LLM 的普适架构——LLaMA。
**参考资料**
1. [Improving Language Understanding by Generative Pre-Training](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf)
2. [Language Models are Unsupervised Multitask Learners](https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf)
3. [Language Models are Few-Shot Learners](https://arxiv.org/pdf/2005.14165)