[RVC] [입문용/初心者向け] Voice Model - Sia [KLM4.2 LIVE/ FP32 / Rvmpe / 한국어 / 日本語 / VR:H]
- Digital500 JPY
![[RVC] [입문용/初心者向け] Voice Model - Sia [KLM4.2 LIVE/ FP32 / Rvmpe / 한국어 / 日本語 / VR:H]](https://booth.pximg.net/5b273a06-a1f0-40f5-b4d2-6b693e50857e/i/5831469/67ce1d0c-11ff-4d90-a6f0-a5f81643635b_base_resized.jpg)
RVC Voice Model - Sia Model Style : Soft Voice, Smooth, Sleepy 성우 : 합성모델 사전학습 모델 : KLM 4.2 Live / fp32 [입문자용 모델] 다른 성별의 목소리로 본인의 목소리를 변환시켜도 본인의 말투 또는 악센트가 너무 한쪽 성별에 편향되어 있는 경우 어색한 소리가 나오게 됩니다. 즉, 대부분 다른 성별의 목소리를 추론시키기 위해서는 성별마다 가지고 있는 고유의 특징을 따라해야 하지만 익숙하지 않은 말투나 습관을 따라하는 것은 매우 어색하기 때문에 많은 연습이 필요합니다. 이러한 이유로 타 성별의 말투나 습성을 이해하지 못한 상태에서 전환폭이 큰 빅데이터 모델을 사용하는 경우 도히려 더욱 어색한 소리가 나오게 됩니다. 입문자용 모델은 목소리의 톤이 일정하고 전환폭이 낮은 모델을 의미하며, 별도의 큰 연습 없이도 일정한 톤에 보정을 받을 수 있는 모델들을 의미 합니다. 단 이러한 모델들은 목소리의 변화를 주어도 일정한 톤이 유지되기 때문에 다양한 음색을 표현하는데 한계가 있습니다. [합성모델] 합성 모델은 성우들의 목소리를 조합하여 전혀 다른 소리를 만든 모델을 의미합니다. Sia 모델은 중-저음의 여성 목소리를 합성하여 만든 입문자용 모델 입니다. [개요] 본 모델은 나레이션 / TTS / Voice Changer에 이용이 가능합니다. 본 모델을 Okada 또는 Voice Changer와 같은 실시간 음성 변환 소프트웨어에 사용하는 경우 본인의 목소리와 모델의 목소리가 매치가 되지 않을 수도 있으며 저희는 이것을 책임지지 않습니다. [사용 방법] Applio, Mainline, Okada 를 이용하여야 합니다. 이용방법이 다소 복잡함으로 기존에 RVC 모델들을 사용해 보신적 있는 분들에게 추천드립니다. Applio 사용자 : 1.본 모델을 다운로드 받고 Zip 파일의 압축을 풉니다. 2.Applio가 설치된 폴더 안에 있는 Logs 폴더에 Sia_Voice.pth 파일을 넣어줍니다. 3.Logs 폴더안에 Sia_Voice 폴더를 새로 생성하고 생성된 폴더 안에 Sia_Voice.Index 파일을 넣어 줍니다. 4.Applio를 실행하고 [추론] - [음성 모델] 에서 Sia_Voice.pth를 선택하고 Index(색인 파일)에서 logs\Sia_Voice\Sia_Voice.index를 선택합니다. 5.추론할 대상을 선택하고 [변환] 버튼을 눌러 추론을 시작합니다. Mainline 사용자 : 1.본 모델을 다운로드 받고 Zip 파일의 압축을 풉니다. 2.Mainline이 설치된 폴더안에 [assets] -> [weights]에 Sia_Voice.pth과 Sia_Voice_Extra.pth 파일을 넣어 줍니다. 3.Mainline이 설치된 폴더안에 [Logs] 로 들어가 새로운 Sia_Voice 폴더를 만들고 그 안에 Sia_Voice.index 파일을 넣어 줍니다. 4.추론 탭으로 이동하여 Model 선택란에서 Sia_Voice.pth와 색인 섹션에서 Sia_Voice.Index를 선택합니다. [기본 추론 설정] 본 모델은 KLM4.2의 사전 학습 모델을 이용하고 있으며, 매우 폭넓은 Pitch Range를 제공하고 있습니다. 여러분들이 추론하고자 하는 대상이 [한국어 나레이션]인 경우 특성 검색 비율 (Search Feature Ratio)의 값을 0.75 ~ 1로 맞춰줍니다. 만약 추론 도중 아티펙트가 발생하거나 어색한 부분이 생긴다면 Search Feature Ratio 값을 조금씩 낮춰가며 조정합니다. - (한국어 나레이션) 0.75 ~ 1 - (일본어 나레이션) 0.45 ~ 0.6 - (제 3의 국가 언어 나레이션) 0.3 ~ 0.5 [비추천] 그 외에도 아티펙트가 발생하는 경우 Search Feature Ratio 값을 낮춰 보정 할 수 있습니다.3 Okada에서 이용하는 경우 본인의 목소리에 맞는 별도의 설정이 필요합니다. [파일 설명] 압축 파일에 첨부되어 있는 파일 : Sia_Voice.pth (모델 파일) Sia_Voice.index (특성 인덱스 파일) [Dataset Information] 20 Mins of Speech (normal) Maximum pitch range : B4 [Train Information] Total Steps : 26,680 steps Total Epochs : 290 Epochs [이용 약관] 1. 모델의 양도 또는 2차 판매 금지 2. 불법적인 행위에 사용 금지 (2항의 정치, 종교, 법률의 근거는 해당 사용자의 국가를 지칭합니다.) 3. 판매자는 이용자가 이용시 생기는 어떠한 불이익에도 책임을 지지 않으며, 이용자의 국가가 지정한 법률 또는 이용 약관을 준수하여야 합니다. 해당 데이터를 구입, 다운로드 한 시점에서 본 이용 약관을 동의하고 상단의 모든 안내를 확인 하였음을 의미합니다. RVC Voice Model - Sia モデルのスタイル : ソフトな声、スムーズ、眠そうな感じ 声優 : 合成モデル 事前学習モデル : KLM 4.2 Live / fp32 [初心者用モデル] 他の性別の声に自分の声を変換すると、自分の話し方やアクセントがその性別に大きく偏っている場合、不自然な音声が生成されることがあります。つまり、ほとんどの場合、他の性別の声を生成するためには、その性別固有の特徴に従う必要がありますが、慣れない話し方や習慣を真似るのは非常に不自然になるため、多くの練習が必要です。 このような理由から、他の性別の話し方や習性を理解しないまま変換幅が大きいビッグデータモデルを使用する場合、かえって不自然な音声が生成されることがあります。 初心者用モデルとは、声のトーンが一定で変換幅が小さいモデルを意味し、特別な練習をしなくても一定のトーンで補正を受けることができるモデルを指します。 ただし、このようなモデルは声の変化を与えても一定のトーンが維持されるため、さまざまな音色を表現するのに限界があります。 [合成モデル] 合成モデルとは、声優の声を組み合わせて全く異なる音声を作り出すモデルを指します。Siaモデルは中-低音の女性の声を合成して作られた初心者用モデルです。 [概要] このモデルはナレーション / TTS / Voice Changerに使用できます。 このモデルをOkadaやVoice Changerのようなリアルタイム音声変換ソフトウェアで使用する場合、自分の声とモデルの声が一致しないことがありますが、これは私たちの責任ではありません。 [使用方法] Applio, Mainline, Okadaを使用する必要があります。使用方法がやや複雑なため、既にRVCモデルを使用したことがある方におすすめします。 Applioユーザー: このモデルをダウンロードしてZipファイルの圧縮を解凍します。 Applioがインストールされているフォルダー内のLogsフォルダーにSia_Voice.pthファイルを入れます。 Logsフォルダー内にSia_Voiceフォルダーを新たに作成し、その中にSia_Voice.Indexファイルを入れます。 Applioを実行し、[推論] - [音声モデル]でSia_Voice.pthを選択し、Index(索引ファイル)でlogs\Sia_Voice\Sia_Voice.indexを選択します。 推論対象を選択して[変換]ボタンを押して推論を開始します。 Mainlineユーザー: このモデルをダウンロードしてZipファイルの圧縮を解凍します。 Mainlineがインストールされているフォルダー内の[assets] -> [weights]にSia_Voice.pthとSia_Voice_Extra.pthファイルを入れます。 Mainlineがインストールされているフォルダー内の[Logs]に入り、新しいSia_Voiceフォルダーを作成し、その中にSia_Voice.indexファイルを入れます。 推論タブに移動し、Model選択欄でSia_Voice.pthと索引セクションでSia_Voice.Indexを選択します。 [基本推論設定] このモデルはKLM4.2の事前学習モデルを使用しており、非常に広いピッチレンジを提供しています。 皆さんが推論したい対象が[韓国語ナレーション]の場合、特性検索比率(Search Feature Ratio)の値を0.75〜1に設定します。 もし推論中にアーティファクトが発生したり不自然な部分が生じたりした場合、Search Feature Ratioの値を少しずつ下げながら調整します。 (韓国語ナレーション)0.75〜1 (日本語ナレーション)0.45〜0.6 (第3の国の言語ナレーション)0.3〜0.5 [非推奨] その他にもアーティファクトが発生する場合は、Search Feature Ratioの値を下げて補正することができます。 Okadaで使用する場合、自分の声に合わせた別の設定が必要です。 [ファイル説明] 圧縮ファイルに添付されているファイル: Sia_Voice.pth(モデルファイル) Sia_Voice.index(特性インデックスファイル) [Dataset Information] 20分間のスピーチ(通常) 最大ピッチレンジ:B4 [Train Information] 合計ステップ数:26,680ステップ 合計エポック数:290エポック [利用規約] モデルの譲渡または二次販売禁止 違法行為に使用禁止(2項の政治、宗教、法律の根拠は該当ユーザーの国を指します。) 販売者は利用者が利用時に生じるいかなる不利益にも責任を負わず、利用者の国が指定した法律または利用規約を遵守しなければなりません。 本データを購入、ダウンロードした時点で本利用規約に同意し、上記のすべての案内を確認したことを意味します。