- 更新LLaMA2模型文档,修正图片引用和编号 - 添加Attention结构示意图 - 新增数据处理脚本download_dataset.sh和deal_dataset.py - 优化文档中的代码示例说明
20 lines
597 B
Bash
20 lines
597 B
Bash
#!/bin/bash
|
|
|
|
# 设置环境变量
|
|
export HF_ENDPOINT=https://hf-mirror.com
|
|
|
|
# dataset dir 下载到本地目录
|
|
dataset_dir="your local dataset dir"
|
|
|
|
# 下载预训练数据集
|
|
modelscope download --dataset ddzhu123/seq-monkey mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2 --local_dir ${dataset_dir}
|
|
|
|
# 解压预训练数据集
|
|
tar -xvf "${dataset_dir}/mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2" -C "${dataset_dir}"
|
|
|
|
# 下载SFT数据集
|
|
huggingface-cli download \
|
|
--repo-type dataset \
|
|
--resume-download \
|
|
BelleGroup/train_3.5M_CN \
|
|
--local-dir "${dataset_dir}/BelleGroup" |