【RVC V2】Suisaiシリーズ「Skyblue」
- Digital6,000 JPY

「あの人になりたい」ではなく「新しい自分になる」をコンセプトとして 声を着替える感覚で、相手から「この声好きだな」と思ってもらえるような、 新しい自分を着飾るお手伝いが出来たらいいな という想いで作成しています。 素材となる音声を学習させたそのままのモデルではなく、 様々な声質の特徴を、最大限活かす学習を行ったモデルを 細かな調整でブレンドしたモデルです。 ※各モデルそれぞれ詳細なレシピを作っています。 ※ピッチ破綻も最小限に抑えています。 様々な声質や環境からの入力でも、安定して変換できるように オーグメンテーションという処理を入れています。 また、ちゃんとマイクの前で話している「空気感」にも拘った音作りをしています。 ※学習精度考慮の影響でGAINは少し低めになっているので、適宜調整してご利用ください。 【RVC V2】Suisaiシリーズ「Orange」 https://booth.pm/ja/items/7521700 【RVC V2】Suisaiシリーズ「Red」 https://booth.pm/ja/items/7511954 【RVC V2】Suisaiシリーズ「Green」 https://booth.pm/ja/items/7509821
サンプル音声について
ボイスチェンジャー:vonovox ピッチ:12.8 フォルマント:-0.1 下記の手順で出力したものになります。 1.事前に音声Aを直撮り 2.音声Aをマイク入力と同じビットレート等でボイスチェンジャーに入力 3.入力をリアルタイムで変換した音声をそのまま録音 ※非リアルタイム推論による出力ではなく、リアルタイム推論による出力です。 ※入力元は男性で、説明部分は少し高めの発声、単語集は普段の音高で普通の話し方をしたものです。
学習について
これまでの学習モデルとは全く違うプロセスで学習しました。 1.学習プログラムを大きく改修 ・学習率のD/G分離指定 ・学習率やeps、dropoutやc_melなどその他様々な設定を、学習進行度(STEP数)で最適に変化するようにオートメーション化 ・G側に指定した量のインスタンスノイズを乗せるように変更し、学習時のG側を安定化 ・数百パターンに及ぶ学習試行回数から導き出した最適な汎用設定を採用 2.独自の大規模事前学習モデル構築 ・導き出した最適な専用学習設定で構築 ・日本語発話の強化 ・特殊発音やクシャミ、ブレスなど様々な潜在空間を構築(変換を保証するものではありません) ・ウィスパー等の日本語発音強化 上記のプロセスと、いままで数え切れないほど学習試行してきた経験知識をフルに活かして作りました。 今までの学習モデルの「壁」を少し壊せたような気がします。
ブレンドレシピについて
enc_q, flow, dec, emb_g, dec_postnetなど詳細に設定しています。 その他、rescale-to-base, strip-optimizerと、fp32によるブレンドを行っています。
アップデートについて
品質向上するべく日々様々な試行錯誤を繰り返しています。 初期リリース以上の品質向上が認められた場合、無償でアップデート版を提供させていただきます。 詳細なレシピを基にブレンドしていますが、学習の特性上、初期版とは声が「多少」異なってしまいます。その点ご了承ください。 とてつもなく時間を要する様々な試行を繰り返しているため、アップデート頻度は明言できません。
利用について
商用利用や配信等、制限なくご利用いただけます。 常識の範囲内でご利用ください。 モデルの譲渡・転売・配布は禁じます。

