Create 第五章 动手搭建大模型 & 第七章 大模型应用

This commit is contained in:
KMnO4-zx
2025-04-26 20:28:25 +08:00
parent 61d30cdae1
commit 7638cee514
17 changed files with 2990 additions and 30 deletions

View File

@@ -1033,9 +1033,6 @@ Sample 2:
> 大家在训练的时候可以将 batch 调的低一些,这样可以减少显存的占用,避免显存不足的问题。当然这样会增加训练时间,可以根据自己的显卡显存大小来调整 batch 的大小。实测 Pretrain batch 为 4 的情况下只需要 7G 显存,训练时长预计 533 小时。作者是在 4卡A100上进行训练的预训练一共耗时26小时SFT 阶段在 BelleGroup 350万条中文指令训练 4 小时。
> 作者训练好的模型 SFT模型 K-Model-215M: https://www.modelscope.cn/models/kmno4zx/K-Model-215M
**参考文献**
- [llama2.c](https://github.com/karpathy/llama2.c)

File diff suppressed because it is too large Load Diff