Suisaiシリーズ「Green」
- Digital6,000 JPY

「あの人になりたい」から「新しい自分になる」をコンセプトとした Suisaiシリーズをリリースしました。 「あ、あの人の声と似てる」ではなく、「この声好きだな」と思ってもらえる新しい自分を作るお手伝いが出来たらいいなという想いで作成しています。 Suisaiシリーズは、素材となる音声を学習させたそのままのモデルではなく、様々な声に対して特徴を最大限活かす学習を行い、それらをカテゴリ毎に分類し、細かな調整でブレンドしたモデルです。 ※各モデルそれぞれ詳細なレシピを作っています。 ※ピッチ破綻も最小限に押さえています。 サンプル音声について ボイスチェンジャー:vonovox ピッチ:14 フォルマント:-20 下記の手順で出力したものになります。 1.事前に音声Aを直撮り 2.音声Aをマイク入力と同じビットレート等でボイスチェンジャーに入力 3.入力をリアルタイムで変換した音声をそのまま録音 ※非リアルタイム推論による出力ではありません。 ※入力元は男性で、演技せずにあえて普通の話し方をしたものです。 学習について これまでの学習モデルとは全く違うプロセスで学習しました。 1.学習プログラムを大きく改修 学習率のD/G分離指定 学習率やeps、dropoutやc_melなどその他様々な設定を、学習進行度(STEP数)で最適に変化するようにオートメーション化 G側に指定した量のインスタンスノイズを乗せるように変更し、学習時のG側を安定化 数百パターンに及ぶ学習試行回数から導き出した最適な汎用設定を採用 2.独自の大規模事前学習モデル構築 導き出した最適な専用学習設定で構築 日本語発話の強化 特殊発音やクシャミ、ブレスなど様々な潜在空間を構築(変換を保証するものではありません) ウィスパー等の日本語発音強化 上記のプロセスと、いままで数え切れないほど学習試行してきた経験知識をフルに活かして作りました。 今までの学習モデルの「壁」を少し壊せたような気がします。 アップデートについて 品質向上するべく日々様々な試行錯誤を繰り返しています。 初期リリース以上の品質向上が認められた場合、無償でアップデート版を提供させていただきます。 詳細なレシピを基にブレンドしていますが、学習の特性上、初期版とは声が「多少」異なってしまいます。その点ご了承ください。 とてつもなく時間を要する様々な試行を繰り返しているため、アップデート頻度は明言できません。 利用について 商用利用や配信等、制限なくご利用いただけます。 常識の範囲内でご利用ください。 モデルの譲渡・転売・配布は禁じます。