Update download_dataset.sh

This commit is contained in:
Reagan Zhang
2025-06-19 16:06:05 +08:00
committed by GitHub
parent 2601c45444
commit 56fb0c34d4

View File

@@ -1,3 +1,4 @@
# MacOS 系统下载方式
#!/bin/bash
# 设置环境变量
@@ -17,4 +18,40 @@ huggingface-cli download \
--repo-type dataset \
--resume-download \
BelleGroup/train_3.5M_CN \
--local-dir "${dataset_dir}/BelleGroup"
--local-dir "${dataset_dir}/BelleGroup"
# Windows下载方式
# 使用PowerShell下载
# 暂时为当前PowerShell界面设置环境关闭Powershell环境自动消失
$env:HF_ENDPOINT = "https://hf-mirror.com"
# 将\path\to\your\dataset替换成想要下载dataset目录地址
$dataset_dir = "\path\to\your\dataset"
# 需要预先安装modelscope使用pip install modelscope安装
modelscope download --dataset ddzhu123/seq-monkey mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2 --local_dir "$dataset_dir"
tar -xvf "$dataset_dir\mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2" -C "$dataset_dir"
huggingface-cli download `
--repo-type dataset `
--resume-download `
BelleGroup/train_3.5M_CN `
--local-dir "$dataset_dir\BelleGroup"
# 使用CMD下载
# 暂时为当前CMD界面设置环境关闭CMD环境自动消失
set HF_ENDPOINT=https://hf-mirror.com
# 将\path\to\your\dataset替换成想要下载dataset目录地址
set dataset_dir=\path\to\your\dataset
modelscope download --dataset ddzhu123/seq-monkey mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2 --local_dir %dataset_dir%
tar -xvf "%dataset_dir%\mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2" -C "%dataset_dir%"
huggingface-cli download ^
--repo-type dataset ^
--resume-download ^
BelleGroup/train_3.5M_CN ^
--local-dir "%dataset_dir%\BelleGroup"