Name: 【RVC V2】Suisaiシリーズ「Green」
Brand: nanamaterials
Price: 6000 JPY
Availability: InStock

nanamaterials

【RVC V2】Suisaiシリーズ「Green」

Digital
6,000 JPY

About Gift

【RVC V2】Suisaiシリーズ「Green」

nanamaterials

Cannot play

「あの人になりたい」ではなく「新しい自分になる」をコンセプトとして声を着替える感覚で、相手から「この声好きだな」と思ってもらえるような、新しい自分を着飾るお手伝いが出来たらいいなという想いで作成しています。素材となる音声を学習させたそのままのモデルではなく、様々な声質の特徴を、最大限活かす学習を行ったモデルを細かな調整でブレンドしたモデルです。 ※各モデルそれぞれ詳細なレシピを作っています。 ※ピッチ破綻も最小限に抑えています。様々な声質や環境からの入力でも、安定して変換できるようにオーグメンテーションという処理を入れています。また、ちゃんとマイクの前で話している「空気感」にも拘った音作りをしています。 ※学習精度考慮の影響でGAINは少し低めになっているので、適宜調整してご利用ください。

バージョン履歴

2025/10/10 _/_/_/_/_/_/_/_/_/_/_/ v2を追加 2025/10/12 _/_/_/_/_/_/_/_/_/_/_/ v3を追加 EQによる調整がしやすいように、低域ブレス要素を追加しました。これにより自然な低域が増加しています。 v3によるサンプル音声へ更新しました。 2025/10/22 _/_/_/_/_/_/_/_/_/_/_/ 最終版をリリースしました。このバージョンをもってGreenの更新を一時停止します。v3同様にEQで好みの音質へ調整しやすく整音しています。サンプル音声のEQ設定を添付しました。ピッチ変更による声質の調整可能範囲も強化しています。あなた好みのピッチでご利用ください。 - サンプル音声を更新。 - 事前学習モデルのF0レンジを調整 - Keyモデルの学習率を微調整し再学習 - ブレンド設定を調整

サンプル音声について

ボイスチェンジャー：vonovox ピッチ：13.5 フォルマント：0 下記の手順で出力したものになります。１．事前に音声Aを直撮り２．音声Aをマイク入力と同じビットレート等でボイスチェンジャーに入力３．入力をリアルタイムで変換した音声をそのまま録音 ※非リアルタイム推論による出力ではなく、リアルタイム推論による出力です。 ※入力元は男性で、説明部分は少し高めの発声、単語集は普段の音高で普通の話し方をしたものです。

学習について

これまでの学習モデルとは全く違うプロセスで学習しました。１．学習プログラムを大きく改修 ■学習率のD/G分離指定 ■学習率やeps、dropoutやc_melなどその他様々な設定を、学習進行度（STEP数）で最適に変化するようにオートメーション化 ■G側に指定した量のインスタンスノイズを乗せるように変更し、学習時のG側を安定化 ■数百パターンに及ぶ学習試行回数から導き出した最適な汎用設定を採用２．独自の大規模事前学習モデル構築 ■導き出した最適な専用学習設定で構築 ■日本語発話の強化 ■特殊発音やクシャミ、ブレスなど様々な潜在空間を構築（変換を保証するものではありません） ■ウィスパー等の日本語発音強化上記のプロセスと、いままで数え切れないほど学習試行してきた経験知識をフルに活かして作りました。今までの学習モデルの「壁」を少し壊せたような気がします。

ブレンドレシピについて

enc_q, flow, dec, emb_g, dec_postnetなど詳細に設定しています。その他、rescale-to-base, strip-optimizerと、fp32によるブレンドを行っています。

アップデートについて

品質向上するべく日々様々な試行錯誤を繰り返しています。初期リリース以上の品質向上が認められた場合、無償でアップデート版を提供させていただきます。詳細なレシピを基にブレンドしていますが、学習の特性上、初期版とは声が「多少」異なってしまいます。その点ご了承ください。とてつもなく時間を要する様々な試行を繰り返しているため、アップデート頻度は明言できません。

利用について

商用利用や配信等、制限なくご利用いただけます。常識の範囲内でご利用ください。モデルの譲渡・転売・配布は禁じます。

nanamaterials

Visit FANBOX!