21 lines
668 B
Bash
21 lines
668 B
Bash
#!/bin/bash
|
||
|
||
# 设置环境变量
|
||
export HF_ENDPOINT=https://hf-mirror.com
|
||
|
||
# dataset dir 下载到本地目录
|
||
dataset_dir="your local dataset dir"
|
||
|
||
# 下载预训练数据集, 需要预先安装modelscope,使用pip3 install modelscope安装
|
||
modelscope download --dataset ddzhu123/seq-monkey mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2 --local_dir ${dataset_dir}
|
||
|
||
# 解压预训练数据集
|
||
tar -xvf "${dataset_dir}/mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2" -C "${dataset_dir}"
|
||
|
||
# 下载SFT数据集
|
||
huggingface-cli download \
|
||
--repo-type dataset \
|
||
--resume-download \
|
||
BelleGroup/train_3.5M_CN \
|
||
--local-dir "${dataset_dir}/BelleGroup"
|