docs:第三章、前言 小修

This commit is contained in:
KMnO4-zx
2025-05-15 15:54:01 +08:00
parent 44ae230eb3
commit 9257ba2bcc
2 changed files with 16 additions and 13 deletions

View File

@@ -1,8 +1,8 @@
# 前言
2022年底ChatGPT 的横空出世改变了人们对人工智能的认知也给自然语言处理Natural Language Process下称 NLP领域带来了阶段性的变革以 GPT 系列模型为代表的大语言模型Large Language Model下称 LLM成为 NLP 乃至人工智能领域的研究主流。自 2023年至今LLM 始终是人工智能领域的核心话题,引发了一轮又一轮的科技浪潮。
2022年底ChatGPT 的横空出世改变了人们对人工智能的认知也给自然语言处理Natural Language ProcessNLP领域带来了阶段性的变革以 GPT 系列模型为代表的大语言模型Large Language ModelLLM成为 NLP 乃至人工智能领域的研究主流。自 2023年至今LLM 始终是人工智能领域的核心话题,引发了一轮又一轮的科技浪潮。
LLM 其实是 NLP 领域经典研究方法预训练语言模型Pretrain Langguage Model下称 PLM的一种衍生成果。NLP 领域聚焦于人类书写的自然语言文本的处理、理解和生成,从诞生至今经历了符号主义阶段、统计学习阶段、深度学习阶段、预训练模型阶段到而今大模型阶段的多次变革。以 GPT、BERT 为代表的 PLM 是上一阶段 NLP 领域的核心研究成果,以注意力机制为模型架构,通过预训练-微调的阶段思想通过在海量无监督文本上进行自监督预训练,实现了强大的自然语言理解能力。但是,传统的 PLM 仍然依赖于一定量有监督数据进行下游任务微调且在自然语言生成任务上性能还不尽如人意NLP 系统的性能距离人们所期待的通用人工智能还有不小的差距。
LLM 其实是 NLP 领域经典研究方法预训练语言模型Pretrain Langguage ModelPLM的一种衍生成果。NLP 领域聚焦于人类书写的自然语言文本的处理、理解和生成,从诞生至今经历了符号主义阶段、统计学习阶段、深度学习阶段、预训练模型阶段到而今大模型阶段的多次变革。以 GPT、BERT 为代表的 PLM 是上一阶段 NLP 领域的核心研究成果,以注意力机制为模型架构,通过预训练-微调的阶段思想通过在海量无监督文本上进行自监督预训练,实现了强大的自然语言理解能力。但是,传统的 PLM 仍然依赖于一定量有监督数据进行下游任务微调且在自然语言生成任务上性能还不尽如人意NLP 系统的性能距离人们所期待的通用人工智能还有不小的差距。
LLM 是在 PLM 的基础上,通过大量扩大模型参数、预训练数据规模,并引入指令微调、人类反馈强化学习等手段实现的突破性成果。相较于传统 PLMLLM 具备涌现能力具有强大的上下文学习能力、指令理解能力和文本生成能力。在大模型阶段NLP 研究者可以一定程度抛弃大量的监督数据标注工作通过提供少量监督示例LLM 即能在指定下游任务上达到媲美大规模微调 PLM 的性能。同时,强大的指令理解能力与文本生成能力使 LLM 能够直接、高效、准确地响应用户指令,从而真正向通用人工智能的目标逼近。
@@ -16,9 +16,9 @@ LLM 的突破性进展激发了 NLP 领域乃至整个人工智能领域的研
本书包含 LLM 的理论基础、原理介绍和项目实战,全书包括 LLM 及 NLP 的核心思路剖析、公式解析与代码实战,旨在帮助开发者深入理解并掌握 LLM 的基本原理与应用。因此本书适合大学生、研究人员、LLM 爱好者阅读。在阅读本书之前,你需要具备一定的编程经验,尤其是要对 Python 编程语言有一定的了解。同时,你最好具备深度学习的相关知识,并了解 NLP 领域的相关概念和术语,以便更轻松地阅读本书。
本书分为两部分——基础知识与实战应用。第 1章 4章是基础知识部分从浅入深介绍 LLM 的基本原理。其中,第 1章简单介绍 NLP 的基本任务和发展,为非 NLP 领域研究者提供参考;第 2章介绍 LLM 的基本架构——Transformer包括原理介绍及代码实现作为 LLM 最重要的理论基础;第 3章整体介绍经典的 PLM包括 Encoder-Only、Encoder-Decoder 和 Decoder-Only 三种架构,也同时介绍了当前一些主流 LLM 的架构和思想;第 4章则正式进入 LLM 部分,详细介绍 LLM 的特点、能力和整体训练过程。第 5章 7章是实战应用部分将逐步带领读者深入 LLM 的底层细节。其中,第 5章将带领读者基于 torch 层亲手搭建一个 LLM并实现预训练、有监督微调的全流程 6章将引入目前业界主流的 LLM 训练框架 transformers带领读者基于该框架快速、高效地实现 LLM 训练过程;第 7章则将介绍 基于 LLM 的各种应用,补全读者对 LLM 体系的认知,包括 LLM 的评测、检索增强生产Retrieval-Augmented Generation下称 RAG、智能体Agent的思想和简单实现。你可以根据个人兴趣和需求选择性地阅读相关章节。
本书分为两部分——基础知识与实战应用。第1章第4章是基础知识部分从浅入深介绍 LLM 的基本原理。其中第1章简单介绍 NLP 的基本任务和发展,为非 NLP 领域研究者提供参考第2章介绍 LLM 的基本架构——Transformer包括原理介绍及代码实现作为 LLM 最重要的理论基础第3章整体介绍经典的 PLM包括 Encoder-Only、Encoder-Decoder 和 Decoder-Only 三种架构,也同时介绍了当前一些主流 LLM 的架构和思想第4章则正式进入 LLM 部分,详细介绍 LLM 的特点、能力和整体训练过程。第5章第7章是实战应用部分将逐步带领读者深入 LLM 的底层细节。其中第5章将带领读者基于 PyTorch 层亲手搭建一个 LLM并实现预训练、有监督微调的全流程第6章将引入目前业界主流的 LLM 训练框架 Transformers带领读者基于该框架快速、高效地实现 LLM 训练过程第7章则将介绍 基于 LLM 的各种应用,补全读者对 LLM 体系的认知,包括 LLM 的评测、检索增强生产Retrieval-Augmented GenerationRAG、智能体Agent的思想和简单实现。你可以根据个人兴趣和需求选择性地阅读相关章节。
在阅读本书的过程中建议你将理论和实际相结合。LLM 是一个快速发展、注重实践的领域,我们建议你多投入实战,复现本书提供的各种代码,同时积极参加 LLM 相关的项目与比赛,真正投入到 LLM 开发的浪潮中。我们鼓励你关注 datawhale 及其他 LLM 相关开源社区,当遇到问题时,你可以随时在 datawhale 社区提问。datawhale 也会始终跟进 LLM 及其他人工智能技术的发展,欢迎你关注或加入到 datawhale 社区的共建中。
在阅读本书的过程中建议你将理论和实际相结合。LLM 是一个快速发展、注重实践的领域,我们建议你多投入实战,复现本书提供的各种代码,同时积极参加 LLM 相关的项目与比赛,真正投入到 LLM 开发的浪潮中。我们鼓励你关注 Datawhale 及其他 LLM 相关开源社区,当遇到问题时,你可以随时在 Datawhale 社区提问。Datawhale 也会始终跟进 LLM 及其他人工智能技术的发展,欢迎你关注或加入到 Datawhale 社区的共建中。
最后,欢迎每一位读者在阅读完本书后加入到 LLM 开发者的行列。作为国内 AI 开源社区,我们希望充分聚集共创者,一起丰富这个开源 LLM 的世界,打造更多、更全面特色 LLM 的教程。星火点点,汇聚成海。我们希望成为 LLM 与普罗大众的阶梯,以自由、平等的开源精神,拥抱更恢弘而辽阔的 LLM 世界。

View File

@@ -459,7 +459,10 @@ GLM 通过优化一个自回归空白填充任务来实现 MLM 与 CLM 思想的
通过将 MLM 与 CLM 思想相结合,既适配逐个 token 生成的生成类任务,也迫使模型从前后两个方向学习输入文本的隐含关系从而适配了理解类任务。使用 GLM 预训练任务产出的 GLM 模型,在一定程度上展现了其超出同体量 BERT 系模型的优越性能:
![alt text](./figures/3-2.png)
<div align='center'>
<img src="./figures/3-2.png" alt="alt text" width="90%">
<p>图3.14 alt text</p>
</div>
不过GLM 预训练任务更多的优势还是展现在预训练模型时代,迈入 LLM 时代后针对于超大规模、体量的预训练CLM 展现出远超 MLM 的优势。通过将模型体量加大、预训练规模扩大CLM 预训练得到的生成模型在文本理解上也能具有超出 MLM 训练的理解模型的能力因此ChatGLM 系列模型也仅在第一代模型使用了 GLM 的预训练思想,从 ChatGLM2 开始,还是回归了传统的 CLM 建模。虽然从 LLM 的整体发展路径来看GLM 预训练任务似乎是一个失败的尝试,但通过精巧的设计将 CLM 与 MLM 融合,并第一时间产出了中文开源的原生 LLM其思路仍然存在较大的借鉴意义。
@@ -473,18 +476,15 @@ ChatGLM3-6B 发布于 23年 10月相对于二代在语义、数学、推理
2024年 1月智谱发布了支持 128K 上下文,包括多种类型的 GLM-4 系列模型,评估其在英文基准上达到了 GPT-4 的水平。不过,智谱并未直接开源 GLM-4而是开源了其轻量级版本 GLM-4-9B 模型,其在 1T token 的多语言语料库上进行预训练,上下文长度为 8K并使用与 GLM-4 相同的管道和数据进行后训练。在训练计算量较少的情况下,其超越了 Llama-3-8B并支持 GLM-4 中所有工具的功能。
下表展示了 GLM 系列模型在基准集上的表现演进:
图3.15展示了 GLM 系列模型在基准集上的表现演进:
![alt text](./figures/3-3.png)
<div align='center'>
<img src="./figures/3-3.png" alt="alt text" width="90%">
<p>图3.15 alt text</p>
</div>
**参考资料**
```
待处理 GLM
1. [ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools](https://arxiv.org/abs/2406.12793)
2. [GLM: General Language Model Pretraining with Autoregressive Blank Infilling](https://arxiv.org/abs/2103.10360)
```
[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. (2019). *BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.* arXiv preprint arXiv:1810.04805.
[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov. (2019). *RoBERTa: A Robustly Optimized BERT Pretraining Approach.* arXiv preprint arXiv:1907.11692.
@@ -501,3 +501,6 @@ ChatGLM3-6B 发布于 23年 10月相对于二代在语义、数学、推理
[8] 张帆, 陈安东的文章“万字长文带你梳理Llama开源家族从Llama-1到Llama-3”来源https://mp.weixin.qq.com/s/5_VnzP3JmOB0D5geV5HRFg
[9] Team GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Dan Zhang, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Jingyu Sun, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, and Zihan Wang. (2024). *ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools.* arXiv preprint arXiv:2406.12793.
[10] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang 和 Jie Tang. (2022). *GLM: General Language Model Pretraining with Autoregressive Blank Infilling.* arXiv preprint arXiv:2103.10360.