Create 第五章 动手搭建大模型 & 第七章 大模型应用
This commit is contained in:
@@ -1033,9 +1033,6 @@ Sample 2:
|
||||
|
||||
> 大家在训练的时候可以将 batch 调的低一些,这样可以减少显存的占用,避免显存不足的问题。当然这样会增加训练时间,可以根据自己的显卡显存大小来调整 batch 的大小。实测 Pretrain batch 为 4 的情况下只需要 7G 显存,训练时长预计 533 小时。作者是在 4卡A100上进行训练的,预训练一共耗时26小时,SFT 阶段在 BelleGroup 350万条中文指令训练 4 小时。
|
||||
|
||||
> 作者训练好的模型 SFT模型 K-Model-215M: https://www.modelscope.cn/models/kmno4zx/K-Model-215M
|
||||
|
||||
|
||||
**参考文献**
|
||||
|
||||
- [llama2.c](https://github.com/karpathy/llama2.c)
|
||||
|
||||
2026
docs/chapter5/第五章 动手搭建大模型.md
Normal file
2026
docs/chapter5/第五章 动手搭建大模型.md
Normal file
File diff suppressed because it is too large
Load Diff
Reference in New Issue
Block a user