@@ -76,12 +76,6 @@ pip install -r requirements.txt
|
||||
|
||||
### 手動インストール
|
||||
|
||||
#### 依存関係をインストールします
|
||||
|
||||
```bash
|
||||
pip install -r requirementx.txt
|
||||
```
|
||||
|
||||
#### FFmpegをインストールします。
|
||||
|
||||
##### Conda ユーザー
|
||||
@@ -107,6 +101,12 @@ conda install -c conda-forge 'ffmpeg<7'
|
||||
brew install ffmpeg
|
||||
```
|
||||
|
||||
#### 依存関係をインストールします
|
||||
|
||||
```bash
|
||||
pip install -r requirementx.txt
|
||||
```
|
||||
|
||||
### Docker の使用
|
||||
|
||||
#### docker-compose.yaml の設定
|
||||
@@ -136,11 +136,15 @@ docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-Docker
|
||||
|
||||
## 事前訓練済みモデル
|
||||
|
||||
[GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITSpretrained_models` に置きます。
|
||||
1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリに配置してください。
|
||||
|
||||
中国語 ASR(追加)については、[Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files)、[Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) からモデルをダウンロードし、`tools/asr/models` に置いてください。
|
||||
2. [G2PWModel_1.1.zip](https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip) からモデルをダウンロードし、解凍して `G2PWModel` にリネームし、`GPT_SoVITS/text` ディレクトリに配置してください。(中国語TTSのみ)
|
||||
|
||||
UVR5 (Vocals/Accompaniment Separation & Reverberation Removal, additionally) の場合は、[UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) からモデルをダウンロードして `tools/uvr5/uvr5_weights` に置きます。
|
||||
3. UVR5(ボーカル/伴奏分離 & リバーブ除去の追加機能)の場合は、[UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) からモデルをダウンロードし、`tools/uvr5/uvr5_weights` ディレクトリに配置してください。
|
||||
|
||||
4. 中国語ASR(追加機能)の場合は、[Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files)、および [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください。
|
||||
|
||||
5. 英語または日本語のASR(追加機能)の場合は、[Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください。また、[他のモデル](https://huggingface.co/Systran) は、より少ないディスク容量で同様の効果を持つ可能性があります。
|
||||
|
||||
## データセット形式
|
||||
|
||||
@@ -161,25 +165,106 @@ vocal_path|speaker_name|language|text
|
||||
```
|
||||
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
|
||||
```
|
||||
## 微調整と推論
|
||||
|
||||
### WebUIを開く
|
||||
|
||||
#### 統合パッケージ利用者
|
||||
|
||||
`go-webui.bat`をダブルクリックするか、`go-webui.ps`を使用します。
|
||||
V1に切り替えたい場合は、`go-webui-v1.bat`をダブルクリックするか、`go-webui-v1.ps`を使用してください。
|
||||
|
||||
#### その他
|
||||
|
||||
```bash
|
||||
python webui.py <言語(オプション)>
|
||||
```
|
||||
|
||||
V1に切り替えたい場合は
|
||||
|
||||
```bash
|
||||
python webui.py v1 <言語(オプション)>
|
||||
```
|
||||
またはWebUIで手動でバージョンを切り替えます。
|
||||
|
||||
### 微調整
|
||||
|
||||
#### パス自動補完がサポートされました
|
||||
|
||||
1.音声パスを入力する
|
||||
|
||||
2.音声を小さなチャンクに分割する
|
||||
|
||||
3.ノイズ除去(オプション)
|
||||
|
||||
4.ASR
|
||||
|
||||
5.ASR転写を校正する
|
||||
|
||||
6.次のタブに移動し、モデルを微調整する
|
||||
|
||||
### 推論WebUIを開く
|
||||
|
||||
#### 統合パッケージ利用者
|
||||
|
||||
`go-webui-v2.bat`をダブルクリックするか、`go-webui-v2.ps`を使用して、`1-GPT-SoVITS-TTS/1C-inference`で推論webuiを開きます。
|
||||
|
||||
#### その他
|
||||
|
||||
```bash
|
||||
python GPT_SoVITS/inference_webui.py <言語(オプション)>
|
||||
```
|
||||
または
|
||||
|
||||
```bash
|
||||
python webui.py
|
||||
```
|
||||
その後、`1-GPT-SoVITS-TTS/1C-inference`で推論webuiを開きます。
|
||||
|
||||
## V2リリースノート
|
||||
|
||||
新機能:
|
||||
|
||||
1. 韓国語と広東語をサポート
|
||||
|
||||
2. 最適化されたテキストフロントエンド
|
||||
|
||||
3. 事前学習済みモデルが2千時間から5千時間に拡張
|
||||
|
||||
4. 低品質の参照音声に対する合成品質の向上
|
||||
|
||||
[詳細はこちら](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7))
|
||||
|
||||
V1環境からV2を使用するには:
|
||||
|
||||
1. `pip install -r requirements.txt`を使用していくつかのパッケージを更新
|
||||
|
||||
2. 最新のコードをgithubからクローン
|
||||
|
||||
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained)からV2の事前学習モデルをダウンロードし、それらを`GPT_SoVITS\pretrained_models\gsv-v2final-pretrained`に配置
|
||||
|
||||
中国語V2追加: [G2PWModel_1.1.zip](https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip)(G2PWモデルをダウンロードし、解凍して`G2PWModel`にリネームし、`GPT_SoVITS/text`に配置します)
|
||||
|
||||
|
||||
|
||||
## Todo リスト
|
||||
|
||||
- [ ] **優先度 高:**
|
||||
- [x] **優先度 高:**
|
||||
|
||||
- [x] 日本語と英語でのローカライズ。
|
||||
- [ ] ユーザーガイド。
|
||||
- [x] ユーザーガイド。
|
||||
- [x] 日本語データセットと英語データセットのファインチューニングトレーニング。
|
||||
|
||||
- [ ] **機能:**
|
||||
- [ ] ゼロショット音声変換(5 秒)/数ショット音声変換(1 分)。
|
||||
- [ ] TTS スピーキングスピードコントロール。
|
||||
- [ ] TTS の感情コントロールの強化。
|
||||
- [x] ゼロショット音声変換(5 秒)/数ショット音声変換(1 分)。
|
||||
- [x] TTS スピーキングスピードコントロール。
|
||||
- [ ] ~~TTS の感情コントロールの強化。~~
|
||||
- [ ] SoVITS トークン入力を語彙の確率分布に変更する実験。
|
||||
- [ ] 英語と日本語のテキストフロントエンドを改善。
|
||||
- [x] 英語と日本語のテキストフロントエンドを改善。
|
||||
- [ ] 小型と大型の TTS モデルを開発する。
|
||||
- [x] Colab のスクリプト。
|
||||
- [ ] トレーニングデータセットを拡張する(2k→10k)。
|
||||
- [ ] より良い sovits ベースモデル(音質向上)
|
||||
- [x] より良い sovits ベースモデル(音質向上)
|
||||
- [ ] モデルミックス
|
||||
|
||||
## (追加の) コマンドラインから実行する方法
|
||||
@@ -240,6 +325,8 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
|
||||
- [faster-whisper](https://github.com/SYSTRAN/faster-whisper)
|
||||
- [FunASR](https://github.com/alibaba-damo-academy/FunASR)
|
||||
|
||||
@Naozumi520 さん、広東語のトレーニングセットの提供と、広東語に関する知識のご指導をいただき、感謝申し上げます。
|
||||
|
||||
## すべてのコントリビューターに感謝します
|
||||
|
||||
<a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">
|
||||
|
||||
Reference in New Issue
Block a user