RVC - BLACKTONE Pretrained Model (Spin [7-11] / Rvmpe / HifiGAN / BF16)
- Digital0 JPY
![RVC - BLACKTONE Pretrained Model (Spin [7-11] / Rvmpe / HifiGAN / BF16)](https://booth.pximg.net/5b273a06-a1f0-40f5-b4d2-6b693e50857e/i/7186767/9d029c6e-82fe-46a9-a121-abda091014ec_base_resized.jpg)
RVCの新しい事前学習モデル「ブラックトーン」のご紹介です。 (本モデルは一般的なボイスモデルではなく、ボイスモデル制作者のための事前学習モデルです。) ブラックトーンは、非音声領域の音が基本的に学習されている事前学習モデルです。 そのため、製作者が「咳」などの非音声的な音を学習させたい場合、非常に効率よく学習を進めることができます。 ただし、この設定のために、ContentVecではなくSpinエンベッダーを使用しています。 また、従来のKLMモデルが109人の話者をベースにしていたのに対し、ブラックトーンは1000人の話者チャンネルを使用しているため、学習前に一部コードの修正が必要です。 Spinエンベッダーを使用する際は、特徴量のIndex値を低く設定する必要があります。 Index値を0.1〜0.4以上に設定すると、一部の発音が過度に強調されたり、発音が崩れたり、まったく発音されないといった問題が発生します。(韓国語と日本語の場合、インデックス値による発音の崩れが特に顕著です。) モデルが非常に多様なデータセットによって構成されていない限り、Index値は0.1以下の使用を推奨します。 最大でも0.4までの使用をおすすめします。 【学習手順】 Applioの使用を推奨します。 前処理を行います。 スライシングは自動ではなく1~2秒の手動設定を行ってください。 (オーバーラップ領域は0.1~0.2秒が推奨) 特徴量抽出時には、Spin [7-11] を利用して抽出を行います。 特徴量抽出が完了したら、Applioがインストールされているフォルダへ移動します。 Applio\Logs\あなたのモデルフォルダ\config.json を、**メモ帳またはメモ帳+**で開いて編集します。 ファイルの一番下に次のようなコードがあります: "use_spectral_norm": false, "gin_channels": 256, "spk_embed_dim": 109 このうち、spk_embed_dimの値を109から1000に変更してください。 "use_spectral_norm": false, "gin_channels": 256, "spk_embed_dim": 1000 上記の設定を行った後、学習を実行してください。 注意: spk_embed_dimを109のままで学習を進めると、 事前学習モデルとの設定が一致せず、エラーが発生し学習が実行できません。 必ずこの変更を行ってください。 【推論時の注意】 推論(Inference)の際も、ContentVecではなくSpinエンベッダーを使用する必要があります。 BLACKTONE Pretrained Model Info - Sample Rate : 32000khz Total Dataset : 4200 Hours Batch Size : 96 Total Steps : N/A embedder : SPIN (7-11) PEA : Rvmpe