docs:第三章、前言 小修

This commit is contained in:
KMnO4-zx
2025-05-15 15:54:01 +08:00
parent 44ae230eb3
commit 9257ba2bcc
2 changed files with 16 additions and 13 deletions

View File

@@ -459,7 +459,10 @@ GLM 通过优化一个自回归空白填充任务来实现 MLM 与 CLM 思想的
通过将 MLM 与 CLM 思想相结合,既适配逐个 token 生成的生成类任务,也迫使模型从前后两个方向学习输入文本的隐含关系从而适配了理解类任务。使用 GLM 预训练任务产出的 GLM 模型,在一定程度上展现了其超出同体量 BERT 系模型的优越性能:
![alt text](./figures/3-2.png)
<div align='center'>
<img src="./figures/3-2.png" alt="alt text" width="90%">
<p>图3.14 alt text</p>
</div>
不过GLM 预训练任务更多的优势还是展现在预训练模型时代,迈入 LLM 时代后针对于超大规模、体量的预训练CLM 展现出远超 MLM 的优势。通过将模型体量加大、预训练规模扩大CLM 预训练得到的生成模型在文本理解上也能具有超出 MLM 训练的理解模型的能力因此ChatGLM 系列模型也仅在第一代模型使用了 GLM 的预训练思想,从 ChatGLM2 开始,还是回归了传统的 CLM 建模。虽然从 LLM 的整体发展路径来看GLM 预训练任务似乎是一个失败的尝试,但通过精巧的设计将 CLM 与 MLM 融合,并第一时间产出了中文开源的原生 LLM其思路仍然存在较大的借鉴意义。
@@ -473,18 +476,15 @@ ChatGLM3-6B 发布于 23年 10月相对于二代在语义、数学、推理
2024年 1月智谱发布了支持 128K 上下文,包括多种类型的 GLM-4 系列模型,评估其在英文基准上达到了 GPT-4 的水平。不过,智谱并未直接开源 GLM-4而是开源了其轻量级版本 GLM-4-9B 模型,其在 1T token 的多语言语料库上进行预训练,上下文长度为 8K并使用与 GLM-4 相同的管道和数据进行后训练。在训练计算量较少的情况下,其超越了 Llama-3-8B并支持 GLM-4 中所有工具的功能。
下表展示了 GLM 系列模型在基准集上的表现演进:
图3.15展示了 GLM 系列模型在基准集上的表现演进:
![alt text](./figures/3-3.png)
<div align='center'>
<img src="./figures/3-3.png" alt="alt text" width="90%">
<p>图3.15 alt text</p>
</div>
**参考资料**
```
待处理 GLM
1. [ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools](https://arxiv.org/abs/2406.12793)
2. [GLM: General Language Model Pretraining with Autoregressive Blank Infilling](https://arxiv.org/abs/2103.10360)
```
[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. (2019). *BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.* arXiv preprint arXiv:1810.04805.
[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov. (2019). *RoBERTa: A Robustly Optimized BERT Pretraining Approach.* arXiv preprint arXiv:1907.11692.
@@ -501,3 +501,6 @@ ChatGLM3-6B 发布于 23年 10月相对于二代在语义、数学、推理
[8] 张帆, 陈安东的文章“万字长文带你梳理Llama开源家族从Llama-1到Llama-3”来源https://mp.weixin.qq.com/s/5_VnzP3JmOB0D5geV5HRFg
[9] Team GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Dan Zhang, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Jingyu Sun, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, and Zihan Wang. (2024). *ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools.* arXiv preprint arXiv:2406.12793.
[10] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang 和 Jie Tang. (2022). *GLM: General Language Model Pretraining with Autoregressive Blank Infilling.* arXiv preprint arXiv:2103.10360.