Merge pull request #43 from MengYue-MK2000/main

更新Windows下载Datasets的方法
This commit is contained in:
不要葱姜蒜
2025-06-20 00:40:12 +08:00
committed by GitHub
2 changed files with 37 additions and 2 deletions

View File

@@ -6,7 +6,7 @@ export HF_ENDPOINT=https://hf-mirror.com
# dataset dir 下载到本地目录 # dataset dir 下载到本地目录
dataset_dir="your local dataset dir" dataset_dir="your local dataset dir"
# 下载预训练数据集 # 下载预训练数据集 需要预先安装modelscope使用pip3 install modelscope安装
modelscope download --dataset ddzhu123/seq-monkey mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2 --local_dir ${dataset_dir} modelscope download --dataset ddzhu123/seq-monkey mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2 --local_dir ${dataset_dir}
# 解压预训练数据集 # 解压预训练数据集
@@ -17,4 +17,4 @@ huggingface-cli download \
--repo-type dataset \ --repo-type dataset \
--resume-download \ --resume-download \
BelleGroup/train_3.5M_CN \ BelleGroup/train_3.5M_CN \
--local-dir "${dataset_dir}/BelleGroup" --local-dir "${dataset_dir}/BelleGroup"

View File

@@ -0,0 +1,35 @@
# Windows下载方式
# 使用PowerShell下载
# 暂时为当前PowerShell界面设置环境关闭Powershell环境自动消失
$env:HF_ENDPOINT = "https://hf-mirror.com"
# 将\path\to\your\dataset替换成想要下载dataset目录地址
$dataset_dir = "\path\to\your\dataset"
# 需要预先安装modelscope使用pip install modelscope安装
modelscope download --dataset ddzhu123/seq-monkey mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2 --local_dir "$dataset_dir"
tar -xvf "$dataset_dir\mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2" -C "$dataset_dir"
huggingface-cli download `
--repo-type dataset `
--resume-download `
BelleGroup/train_3.5M_CN `
--local-dir "$dataset_dir\BelleGroup"
# 使用CMD下载
# 暂时为当前CMD界面设置环境关闭CMD环境自动消失
set HF_ENDPOINT=https://hf-mirror.com
# 将\path\to\your\dataset替换成想要下载dataset目录地址
set dataset_dir=\path\to\your\dataset
modelscope download --dataset ddzhu123/seq-monkey mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2 --local_dir %dataset_dir%
tar -xvf "%dataset_dir%\mobvoi_seq_monkey_general_open_corpus.jsonl.tar.bz2" -C "%dataset_dir%"
huggingface-cli download ^
--repo-type dataset ^
--resume-download ^
BelleGroup/train_3.5M_CN ^
--local-dir "%dataset_dir%\BelleGroup"