Update README (#1423)

2024-08-12 10:47:02 +08:00
parent d552c971bf
commit c60e796452
5 changed files with 348 additions and 117 deletions
--- a/docs/ja/README.md
+++ b/docs/ja/README.md
@@ -76,12 +76,6 @@ pip install -r requirements.txt

 ### 手動インストール

-#### 依存関係をインストールします
-
-```bash
-pip install -r requirementx.txt
-```
-
 #### FFmpegをインストールします。

 ##### Conda ユーザー
@@ -107,6 +101,12 @@ conda install -c conda-forge 'ffmpeg<7'
 brew install ffmpeg
 ```

+#### 依存関係をインストールします
+
+```bash
+pip install -r requirementx.txt
+```
+
 ### Docker の使用

 #### docker-compose.yaml の設定
@@ -136,11 +136,15 @@ docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-Docker

 ## 事前訓練済みモデル

-[GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITSpretrained_models` に置きます。
+1. [GPT-SoVITS Models](https://huggingface.co/lj1995/GPT-SoVITS) から事前訓練済みモデルをダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリに配置してください。

-中国語 ASR（追加）については、[Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files)、[Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) からモデルをダウンロードし、`tools/asr/models` に置いてください。
+2. [G2PWModel_1.1.zip](https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip) からモデルをダウンロードし、解凍して `G2PWModel` にリネームし、`GPT_SoVITS/text` ディレクトリに配置してください。（中国語TTSのみ）

-UVR5 (Vocals/Accompaniment Separation & Reverberation Removal, additionally) の場合は、[UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) からモデルをダウンロードして `tools/uvr5/uvr5_weights` に置きます。
+3. UVR5（ボーカル/伴奏分離 & リバーブ除去の追加機能）の場合は、[UVR5 Weights](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights) からモデルをダウンロードし、`tools/uvr5/uvr5_weights` ディレクトリに配置してください。
+
+4. 中国語ASR（追加機能）の場合は、[Damo ASR Model](https://modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/files)、[Damo VAD Model](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/files)、および [Damo Punc Model](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください。
+
+5. 英語または日本語のASR（追加機能）の場合は、[Faster Whisper Large V3](https://huggingface.co/Systran/faster-whisper-large-v3) からモデルをダウンロードし、`tools/asr/models` ディレクトリに配置してください。また、[他のモデル](https://huggingface.co/Systran) は、より少ないディスク容量で同様の効果を持つ可能性があります。

 ## データセット形式

@@ -161,25 +165,106 @@ vocal_path|speaker_name|language|text
 ```
 D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
 ```
+## 微調整と推論
+
+### WebUIを開く
+
+#### 統合パッケージ利用者
+
+`go-webui.bat`をダブルクリックするか、`go-webui.ps`を使用します。
+V1に切り替えたい場合は、`go-webui-v1.bat`をダブルクリックするか、`go-webui-v1.ps`を使用してください。
+
+#### その他
+
+```bash
+python webui.py <言語(オプション)>
+```
+
+V1に切り替えたい場合は
+
+```bash
+python webui.py v1 <言語(オプション)>
+```
+またはWebUIで手動でバージョンを切り替えます。
+
+### 微調整
+
+#### パス自動補完がサポートされました
+
+    1.音声パスを入力する
+
+    2.音声を小さなチャンクに分割する
+
+    3.ノイズ除去（オプション）
+
+    4.ASR
+
+    5.ASR転写を校正する
+
+    6.次のタブに移動し、モデルを微調整する
+
+### 推論WebUIを開く
+
+#### 統合パッケージ利用者
+
+`go-webui-v2.bat`をダブルクリックするか、`go-webui-v2.ps`を使用して、`1-GPT-SoVITS-TTS/1C-inference`で推論webuiを開きます。
+
+#### その他
+
+```bash
+python GPT_SoVITS/inference_webui.py <言語(オプション)>
+```
+または
+
+```bash
+python webui.py
+```
+その後、`1-GPT-SoVITS-TTS/1C-inference`で推論webuiを開きます。
+
+## V2リリースノート
+
+新機能:
+
+1. 韓国語と広東語をサポート
+
+2. 最適化されたテキストフロントエンド
+
+3. 事前学習済みモデルが2千時間から5千時間に拡張
+
+4. 低品質の参照音声に対する合成品質の向上
+
+    [詳細はこちら](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7))
+
+V1環境からV2を使用するには:
+
+1. `pip install -r requirements.txt`を使用していくつかのパッケージを更新
+
+2. 最新のコードをgithubからクローン
+
+3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main/gsv-v2final-pretrained)からV2の事前学習モデルをダウンロードし、それらを`GPT_SoVITS\pretrained_models\gsv-v2final-pretrained`に配置
+
+    中国語V2追加: [G2PWModel_1.1.zip](https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip)（G2PWモデルをダウンロードし、解凍して`G2PWModel`にリネームし、`GPT_SoVITS/text`に配置します）
+
+

 ## Todo リスト

- [ ] **優先度 高:**
+- [x] **優先度 高:**

  - [x] 日本語と英語でのローカライズ。
-  - [ ] ユーザーガイド。
+  - [x] ユーザーガイド。
  - [x] 日本語データセットと英語データセットのファインチューニングトレーニング。

 - [ ] **機能:**
-  - [ ] ゼロショット音声変換（5 秒）／数ショット音声変換（1 分）。
-  - [ ] TTS スピーキングスピードコントロール。
-  - [ ] TTS の感情コントロールの強化。
+  - [x] ゼロショット音声変換（5 秒）／数ショット音声変換（1 分）。
+  - [x] TTS スピーキングスピードコントロール。
+  - [ ] ~~TTS の感情コントロールの強化。~~
  - [ ] SoVITS トークン入力を語彙の確率分布に変更する実験。
-  - [ ] 英語と日本語のテキストフロントエンドを改善。
+  - [x] 英語と日本語のテキストフロントエンドを改善。
  - [ ] 小型と大型の TTS モデルを開発する。
  - [x] Colab のスクリプト。
  - [ ] トレーニングデータセットを拡張する（2k→10k）。
-  - [ ] より良い sovits ベースモデル（音質向上）
+  - [x] より良い sovits ベースモデル（音質向上）
  - [ ] モデルミックス

 ## (追加の) コマンドラインから実行する方法
@@ -240,6 +325,8 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
 - [faster-whisper](https://github.com/SYSTRAN/faster-whisper)
 - [FunASR](https://github.com/alibaba-damo-academy/FunASR)

+@Naozumi520 さん、広東語のトレーニングセットの提供と、広東語に関する知識のご指導をいただき、感謝申し上げます。
+
 ## すべてのコントリビューターに感謝します

 <a href="https://github.com/RVC-Boss/GPT-SoVITS/graphs/contributors" target="_blank">