-
なんでも実況U
-
なんJRVC部★9
-
UPLIFTで広告なしで体験しましょう!快適な閲覧ライフをお約束します!
!extend:default:vvvvv:1000:512:donguri=1/3:
スレ立てのときは↑の!extend::vvvvv:1000:512を3行ぐらいに増やしてな
RVCとTTSとかの情報交換とかのスレ
ボイスチェンジャーで誰でも完璧に別人になりきることはできません。ボイストレーニングが必要です。
wiki: https://seesaawiki.jp/rvc_ch/
前スレ
なんJRVC部★8
http://fate.5ch.net/...veuranus/1720088109/ VIPQ2_EXTDAT: default:vvvvv:1000:512:donguri=1/3: EXT was configured - コメントを投稿する
-
ほ
-
乙やで!
-
20まで
-
せやな
-
ちゅぱちゅぱ
-
ふんふん
-
ksk
-
特に書くネタないから悩むという
-
フンフンフン
-
普段からスローペースだしね
-
うん
-
あとちょっと
-
フンフン
-
はい
-
部屋寒くてビビるぜ
-
やっと秋なんやなって
-
ラストホッシュ
-
🤗
-
いったかな?
-
いちおつ
-
おつー
-
乙
-
あざす
-
nfswのasmrから学習させてるんだけど台本とかテキストデータがないから
文字起こしツール使ってるけど喘ぎとか声が乱れる部分はうまく書き起こせない
その辺はやっぱ手動でコツコツやるしかないんかな... -
>>26
nsfwだ、恥ずかし -
>>28
あれ実際使ってみたらかなり精度悪かったで -
エロ系の書き起こしならこれが結構精度いいよ
https://huggingface....l-novel-transcriptor -
声が誰でもいいなら喘ぎ声なんて簡単につくれるんだけどな
ヌルモデルではなかなか難しい
ちょっと疲れ気味の声とかならいけるんだけど -
エロ単語辞書を作って分かち書きしないとね
-
わからんことでChatGPTとレスバしてると自信が無くなってくる
音声識別のモデルって例えばDeepSpeakerだと、識別させる為のもので、実際に音声識別で使うには
できたモデルで話者ごとの埋め込みファイルだかを作らないといけないのか。
モデルはその埋め込みファイルを作成するのに必要ということか -
音声識別の際には埋め込みファイルを使うので、もう学習モデルはいらないという理解であってる?
-
>>35
style-bert-vits2ならgradio_tabsにあるdataset.pyを編集すればいいよ
他のアプリもどっかに記載されてるはずだからlarge-v3で検索するなりして探してみて
https://i.imgur.com/rryLB4Y.png -
DeepSpeakerも学習させる音声は短いのダメ、無音ダメがある
しかもDeepSpeakerはそれが原因で正常に識別しないまであり凶悪 -
DeepSpeakerとりあえず、エポック100では正常に音声識別できない
エポックを上げて行きます。 -
久しぶりにSBV2で学習させてみたで
これがオーソドックスなママ系ボイス
https://files.catbox.moe/p1z6n9.mp4
これはダウナー系闇属性な感じのボイス
https://files.catbox.moe/by6fj1.mp4 -
>>40
オーソドックスなママの圧倒的説得力 -
そういやBOOTHにStyle-Bert-VITS2の怪しいモデル大量投下してた業者、検索に引っ掛からんな
消えたんだろうか -
声優とかの声を学習させたりマージさせた声のモデルって、どのくらい権利者の声が残っていたらアウトなんだ?逆にセーフな場合ってある?
-
名前を上げたらアウト
-
裁判待ちや
声優名で売ったらアウトだけどキャラ名ならOKかもみたいな議論もある -
芸能人のモノマネ芸人もアウトになる?
-
法律的には対策されてないからセーフなんだろうけど
本気で鬱陶しいと思われたら変化球で仕留められるやろうな
リスペクトの無い人間が表で成功する事は無い -
生成は変化球で落とせる
抽出した特徴に変換するボイチェンは使用者の音声がベースになるんで権利周りでは落とせない
マージモデルを訴えるには「証拠はないが似てるから違法」という主張が認められないといけないので事実上の無敵
それらとは別にモデルを解析されて学習素材を特定できるのなら、間違っても研究目的の学習にはならんのでアウト
音声から「似てるからアウト」に持ち込むには声色の人権が法的に認められないといけないが、それだと声真似や声優同士の争いに発展し、ゲームの特許のように後発の妨害に使われるのであり得ない
法律で落とすには、せいぜい「名義を名乗らなくても、特定個人の特徴を模倣し損害を与えたら認める」という判例が増えないことには弁護士も動かない -
法律のセーフってのは原則なくて、裁判で勝てないから結果的にセーフが正しい
だから民事では証拠にたどり着けないようにするとか
常にノーログVPNで活動するとかやればいい -
声優Aと声優Bと声優Cをブレンドしたらもう判別しようがないもんな
-
芸能人のものまねとかもアウトだよ
だってわざとにさせてるんだから -
それはAIがなくても同じ
悪意的であったり元の人気を利用したら権利者が動く
日本が頑なに現行法でいいと繰り返すのも悪意かあれば対応できるから -
家族の声真似をして振り込め詐欺を働くのは犯罪です。
AIで他人の音声を生成することは犯罪ではありません。
むしろ犯罪ではないものを犯罪呼ばわりすることが犯罪 -
こういう一発で基地外と10割の人間が認定するのが沢山いたから
生成AI全体が嫌われたっていう経緯があるけど
こんなステレオタイプな基地外が存在する訳無いので
生成AIを敵視させるための演技なんだろうね -
久しぶりに学習させて遊びたいんだけど今一番精度高いツールって何?ゲームvcとかで使える範囲の返還速度で
-
ボイチェンならまだ精度求めるならRVC(の派生版Applioがメジャーかな)
精度犠牲にして速度求めるならBeatrice -
スーパートーンシフト
-
>>57
学習できねぇだろうせろや -
>>58
笑い声とか変換できるのはスーパートーンシフトだけだろうそうだろ? -
日本語を扱えるものはこの数ヶ月でそれほど大きな進化はないようだけど
中国語や英語はもっと伸びてるのかな? -
スーパートーンシフトの内部の人がステマしてるんやったら、こっそりモデルリークして誰でも学習できるようにしてくれや
-
NAIのように流出したら時代が動くぞ
-
“AI野沢雅子”や“AI銀河万丈”を提供へ 声優事務所・青二プロが音声AIベンチャーと提携
https://www.itmedia....2410/07/news059.html -
TTSとか対話用のインターフェースに比べるとリアルタイムVCはあんまり賑わってないねぇ
有志開発者も研究も -
限界が今のところ見えてるからやろうなあ
-
sbv2でブルアカキャラ学習したもの使って動画作る程度じゃなくyoutubeで広告つけて実況は無法だなぁ
sbv2に飛び火しねぇでくれよ〜 -
>>67
監視したいからリンクくれ -
某データセットから加工してWhisperのファインチューンに使いやすいようにしたデータセットを公開した
huggingface.co/datasets/litagin/Galgame_Speech_ASR_16kHz
試しに自分で回そうとしてみるけどうまくいくかは分からん、NSFW音声ちゃんと書き起こせない問題がどうにかできればええんやが -
Style-Bert-VITS2についての質問なのですが、データセット作成の文字起し処理にて
File "subprocess.py", line 505, in run
File "subprocess.py", line 1144, in communicate
File "codecs.py", line 322, in decode
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 931: invalid start byte
のようなエラーが出続けています。
WebUI版なのですが、何を修正すればよろしいでしょうか。
sbv2フォルダはローカルディスク直下で、パスに日本語は含まれていないはずです。 -
ffmpegが入ってないのはず、というかそれ報告めっちゃ多いのでどうにかしたいと思いつつどうすればいいか分からん
-
手っ取り早く精度高い女性の声を手に入れたいのですが、「rvc学習済みモデル」ってどうなのでしょうか?
1万超えのものはがびったりしないのでしょうか。
あみたろを自分で学習させたものだとどうしても、ところどころおかしく、ボイチェンしてるなって分かってしまいます。
1万ごえのもの使ったことある方教えて頂けると嬉しいです。 -
怪しい業者のを買うより自分でデータ集めて作るのがいい
-
VCClient最新版入れると自動でついてくるBeatriceでいんじゃね
あれディレイ少ないし声の種類も多くて結構遊べる -
だいぶ前にあったSBV2のjp_extra_largeモデル、当時学習で失敗し続けてそのままだったんだけど、再チャレンジでいけたのでメモ。
・ SBV2は最新版に更新
・ この通常版SBV2は念のためバックアップとっておく。jp_extra_largeにすると過去学習したファイルが使えなくなるみたいなので。
・ jp_extra_largeのファイルをSBV2に上書きする。
・ データセットは通常通り用意する。自分は過去使用のデータセットをそのまま流用した(モデル名変更したのでエディタ編集は実施)。
・ 学習に要するメモリは通常より多めに使われる印象。一度GPUメモリの状態を確認して調整したほうがいいかも。
・ SBV2同梱のエディタはjp_extra_largeで作ったものなら普通に動いた。
・ 結果は、「あっ」とか過去に崩れやすかった応答が良くなった気がする(ダメな応答も多いけど)。
・ あと若干声が跳ね気味かな。このあたりは自分のデータセット棋院かもしれないけど、念のため。
とりあえずサンプル。絵は念のため劣化させてるので、心の目で見てもらえると有難いで。
s://litter.catbox.moe/mgxefq.mp4 -
huggingface.co/AkitoP/whisper-large-v3-japense-phone_accent
ワイの上げたコードどデータセットで読みアクセント推定するWhisperモデル作ってる中華ニキがいてすごいなあと思った
こっちは現在普通にWhisperファインチューン中やから、NSFW書き起こしや、普通のやつでも原音忠実に書き起こせるやつを学習しとるからそのうち共有する -
GPT-SoVITSの読み入力はこのpyopenjtalk_prosody形式らしいから、そっちの学習データ準備には使えるかもな
-
この前公開されたOpenAIのRealtimeAPIの出力をRVCの入力にするようにコード改造してお喋りしてみた
色々可能性を感じるけどAPI料金が高いから長時間遊んでると危ないなw -
せっかくだからURL置いとく
https://github.com/b.../RealtimeAPI-WithRVC -
vocoflexって無理矢理VC化できるのかな?
あと新しく出たSeedVC、ゼロショットにしては性能かなり高いけど教師データ増やしたらどうなるんだろう
そもそも教師データ 増やせるような仕組みになってるのかな?
ちゃんと読んでないからわからん -
Seed-vcっていう新しいボイスチェンジャーに関する記事があったから
wikiに紹介ページ作ってついでにインストール方法書いておいたで -
RVCより性能悪いんでしょ?
-
ターゲットデータ10秒のデモ音声しか聞いたことないからまだわからんな(その音声もターゲット側が知ってる キャラじゃないから 品質がいいかよくわからん)
使ってみるか -
手持ちの音源で試したけどゼロショットでここまでできるのは凄いなって感じで
実用化にはもう少し時間がかかりそうな印象だった -
発展性や選択肢が増えるのはいいことだ
-
新しい選択肢がなかなか増えないのは困るが、技術者が無名であるほど企業に狩られない利点もある
俺らにとっては騒ぎ立てないほうが都合がいいのさ -
いま、有名人の声で曲を歌わせるなら、AIに音声学習させるよりもUTAUで人力ボカロする方が効率的だよな?
-
そいつあげてる動画やべえのばっかだな
こんなのyoutubeに上げてるのバカなのか -
世間が無知な事に付け込んでAI歌手とか歌わせてみたとか吹聴してるけど
その手の動画って全部元音声をボイチェン変換してるだけだから滅茶苦茶悪質なんだよな
別に歌詞や曲からAIが歌っているのではない -
>>93
お前は何を言ってるんだ? -
無知なのは世間ではなくて…
-
>>90
釘宮理恵のディープフェイクと言いなおそう -
いやターゲット話者の声をどう使うかの違い
RVCはターゲット話者でのファインチューン(モデル自体に追加学習)必須だからゼロでもワンでもない、ただのファインチューン
ファインチューンせずにもとのモデルのままで、ターゲット話者の音声をちょっと与えただけでその声にボイチェンなりTTSするのがゼロショットもしくはfew shot -
各ラベルにおいてデータがただ1個の場合は、「ワンショット」と呼ばれています。 もっと極端な場合が、ゼロショット(予測したい対象のデータを新たに学習することなく行う予測)です。
昔これ読んで勝手にデータ数の違いだと思って勘違いしてた
教えてくれて感謝 -
すごい初歩的なこと聞いてごめんだけど転移学習とone shot、few shotは別に相反する概念ではない?
つまり少ないデータでファインチューニングとか転移学習した場合ってファインチューニングかつfew shotが両立する?
https://www.ibm.com/...ew-shot-learning(FSLの手法として転移学習が紹介されてるので)
というかそもそもfew(one) shot生成とfew(one) shot学習ってもしかして若干意味違う?俺何もかも勘違いしてたかも知れない -
自然言語処理の場合https://atmarkit.itm...2308/03/news016.html
ファインチューニングせずプロンプトに少数の例を入れるの意味で
識別タスクとかだと普通にファインチューニングも1手法っぽいな
わかんね~ -
x.com/prj_beatrice/status/1847837728429527404
beatriceがアプデされたらしいで、質が上がったとの噂 -
few/zero/one shotについての正確な定義は知らん、たぶん音声界隈じゃある程度みんなごっちゃにしとる雰囲気ある
-
>>83
これ試してみたけどGPT-SoVITSの上位互換ってことでいいよね? -
上位互換とは?
TTSとVCを比べても意味ないでしょ -
とりあえず自分で試してみれば
-
ワイも最近はWhisperにNSFW単語認識させようと頑張って忙してくてな
前より質が上がったという声はまあまあ上がっとる、手持ちデータで1時間だけ学習回したけどそこまで劇的にRVCほど良くなったかと言うと微妙かもしらん
(ボイチェンに実際には使ってなくてtensorboardでのテストデータ聴いただけやが) -
Deeplとかで単語ごと検索かけて音声ファイルにして、辞書作れば?
-
そもそもハルシネーションしたりして正常な書き起こしにならんからな
今更やけどWhisperファインチューンすれば結構行けることに気づいたのでクラウドGPUに課金してずっと学習回しとる
そのうち共有する -
aivis datasetって sbv2に内蔵されてるやつでええんよな?
別にアプリ使う必要ないよね -
ええで、メンテしとらんしな
-
t5 tts試そうとしたら英語と中国語しか対応しとらんくておわった
-
deep-speakerはいまいちだったけど、pyannote.audioは結構使えると最近気づいた。
-
声に著作権つけたら声真似連中から声を奪われたと訴訟されまくるかもな
波形で判別するってのはそういうこと、声優が守られる側になる保証はねえってことだな -
DMMボイス試してみたけど、JP-EXTRAじゃないほうのモデルを使ってるのかな?中国語訛りっぽいし、英語喋れるし
-
DMMボイス、もろ普通に知っとる声優の声で草だった
-
DMMボイス、「ちゅぱちゅぱれろれろ」という謎の並びの単語が正常に音声合成できず吐息みたいになり、でもカタカナのチュパチュパレロレロだと正常に音声合成されることからして、ほぼ確実に学習データにエロゲあるな
そして男性でも同じことが起きてるから、たぶん多話者モデルとして学習されとる
SBV2ベースとか噂言われとるがサンプリングレートが半分になっとるし辞書とかは明確に強くなってるみたいで分からん -
ゆっくりムービーメイカーだかの方がすごいね
-
素人質問になってしまって恐縮やが
wavファイルを発声者ごとに自動で切り分けてくれるソフトってあるの? -
流石にこんだけ有名声優集めたのでエロゲデータをベースには入れてないんじゃないの
-
と思ったが膣内をなかないと認識するスケベAIだわ
-
一般ではあんまみないけどエロゲでよく見る声優とかもおるしな
-
colabの環境構築で重くなるのなんとかならんか
-
DMMボイスでAIエロボイスの未来を感じた
-
品質的にはBert-VITS2からそこまで変わってる感じはしないけどな
誰でも使いやすくしただけという感じ -
これで一般人にもAIボイスの凄さの片鱗がわかっただろうな
-
DMMボイスアクセス多すぎで停止しててワロタ
-
>>128
ここまで簡単にしてくれたのに知らなかったとか想像以上に無能無産が多いって事だわな
生成AI関連って99%の声だけがデカい無能が1%の有能の足を引っ張り続けるってのが
NAIリークからずっと続いとる -
SVB2使ってる俺スゲーは流石に草
-
>>131
手描きの絵描き反AI派が生成ボイス使っててワロタᴡ -
たかし君はほんとにAI音声作るのがじょうずだねぇ
-
DMM死亡してる
-
ボイチェンじゃなくてAI音声に喋らせるのはどこのスレに行けばええんや?
-
ここが音声AI総合スレになっとるからここでええで
-
AI音声がここまで注目されたのは素晴らしい事だよね
ボイスピークとかも、このレベルにバージョンアップして購入者には無料でw -
>>138
Bert-VITS2と検索すれば好きな音声で使えるぞい -
GPT-soVITSとsilly tavernの連携できてる人おる?
やり方を教えてほしいんや -
https://files.catbox.moe/g4gfpn.mp4
傾向の似ている4話者ぐらいのモデルをマージしたらママの概念みたいなTTSモデルできたわ
学習データと聴き比べてみたけど絶妙にどれとも被ってなくてキレイに足し算できてる気がする
ただこうやってマージしてくとマスピ顔ならぬマスピ声みたいになっていくんやろな -
https://huggingface....itagin/anime-whisper
喘ぎ声やチュパ音をちゃんと書き起こせるよう、例のデータセットでクラウドGPUでファインチューニング頑張ったモデル公開した
NSFWとか関係なく普通に大量良質データで学習させたことで、音声に忠実に書き起こしたり句読点正確についたりして、普通に使うにもなかなか良いモデルだと思うから使ってや -
>>143
軽く手持ちのデータ食わせただけでレベチだと分かるの凄いわ -
>>143
colabでも使える? -
>>143
凄そう、今日帰ったら試したいなぁ -
すごいけども
文字起こしにそんな困ってもないなってところ -
>>143
SVB2に読み込ませて使ってるけどかなり精度が高くて驚いた
ただhugのdemoページの書き起こしとは出力される文章が若干違っててdemoページ書き起こしの方がより正確に書き起こしてくれるんだけど
この違いはなんだろう -
>>148
渡してるgenerate_kwargsの違いやないかな、それ以外は同じはず -
>>149
無知な質問で申し訳ないのですが、モデルの追加はgradio_tabsのdataset.pyに変更を加えたのですが、そのgenerate_kwargsのパラメータはどこから変更するのでしょうか。 -
>>143 うおお、ありがとう。週末試してみたい
-
>>150
自己解決出来ました、ありがとうございます -
gradio_tabsにアニメウィスパー追加したら使えてるんだろうか
じゅるるるるるる!じゅるるるるる!と吸い込みまくりだけど -
パイプラインだかでつないでほしいね
-
次のSBV2アプデで追加はする予定やけど、gradio_tabsのdataset.pyでのkotoba-tech/kotoba-speech-v1.1とか書いてあるリストにlitagin/anime-whisperを追加すればとりあえずは使えるで
-
あとはcolab版の環境構築を軽くしてもらえると助かる
-
colabマンはしょうもないレス書き込んでる間にバイトすれば3060ぐらい買えるやろ
-
学習するのに10時間以上掛かってしまうからマルチGPU対応してくれると助かる
今の構造だと難しいのもわかるけど -
SBV2って学習素材のサンプリングレートは40000を想定してるのかな?
48000の素材で学習するとブレスに変なエコーみたいなのがかかっちゃう -
前処理で44.1khzになるはずだから別の問題じゃない?
-
学習素材をすべて48kで統一してたけどブレスにエコーがかかったりしなかった。
それよりも素材の癖がよくでてくるから、こだわるなら注意深く厳選したほうがいいとおもう。 -
あれー?そうなのか
でも全く同じ素材を40000に変換して同じ設定で学習し直したらエコーみたいなのが消えたんだ
何でそんな事したかというとRVCの方でサンプリングレート設定のとこを敢えて変えると同じ現象が発生して気がついたんや -
もしかしたら潜在的な問題かもしれんけど
学習は大抵素材側が原因だから少ない試行回数でソフト側を疑うのはやめような -
result = subprocess.run(
File "subprocess.py", line 505, in run
File "subprocess.py", line 1144, in communicate
File "codecs.py", line 322, in decode
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 1134: invalid start byte
初心者の質問なんやけど今まで学習のHuggingFaceのWhisperを使ってなかったから出なかったんやけど使おうおもったら↑でたんやがどうすればええんや?
AIに聞いてshift-jis変えてみたにゃけどダメやったし -
>>165
ffmpeg入れると治るよ -
>>166
AIに20回ぐらい聞いてもわからんくて困っとったけど初歩的な質問に答えてくれてサンガツや助かるでホンマ -
SBV2にめっちゃ大規模プルリク送ってくれる人が作ったらしいで
内部はSBV2や、ただ日本語処理部分とかいろいろ独自改善入っとるらしい
オープンソースやしな:
https://github.com/A...-Project/AivisSpeech -
現状でもSBV2モデルから手動でいろいろごにょごにょすれば変換して使えるみたいや、やってる人はおる
UIはもちろん日本語読み取得部分とか諸々でSBV2の上位互換やな、まだ学習用UIはないみたいやけど公開予定らしいし -
いまパソコン修理中なので自分で試せないんだが
anime-whisper2で喘ぎ声とかチュパ音認識できるってことは、それで文字起こししたデータで学習したら前まで微妙だった喘ぎ声の生成とか結構できちゃう感じなのかしら? -
学習データが自動書き起こしになってて、喘ぎ声の書き起こしがおかしいまま学習させてたりしたらそうやろな
-
>>173
今まで使ってたWhisper largeくんやと喘ぎ声とチュパ音はまともに書き起こししてくれないから当然それで学習させても喘ぎ声とかまとも喋ってくれなかったんよ
その感じだと期待できそうだから修理終わるまで糞、溜めて待つぜ -
DMMボイス復活したけど名前変えてたり声優二人ほど変わってたりして草
学習元は変わらずやな -
>>174
チュパ音については事前学習モデルから作っとるから、チュパ音目当てならベースモデルにはこれ使うとええと思うで
https://huggingface....o/litagin/sbv2_chupa -
>>171
学習にはcolabが必要らしい -
学習はどう頑張ってもGPU使うんやから(会社が学習用サーバー建てん限り)、ローカルグラボでやるかcolabでやるかは確定やろ
-
Python使えるレンタルサーバーサービスは他にもあったやろ
-
せやな、まあ現状でも普通にレンタルサーバー借りれば学習できるしな
ただそれなりの知識が必要やし、公式colabに文句言っとる人たちが自力でそういうことできる気はせん -
でも突然バージョンアップして合わないから動きませんを何回か食らうとな
書き換えインストールで済めばいいが競合であっちを立てればこっちが立たずが起こると頭痛が
直して動かしてChatGPTに聞いて直してやってて無料分切れてまた明日とか -
Aivisなんとか使ってみようかなと思ったけど自作SBV2モデル使うためにはONNXに変換が必要でその機能はまだ実装してないらしいけどできる人はやってるん?
-
もうさくらインターネットでもGPUを借りられる時代
-
でも……お高いんでしょ?🥺
-
>>182
うさんくさい青バッチが丁寧に解説しとるで
https://x.com/ai_hak.../1859505368705212760
onnx変換は前からプルリク来ててSBV2本家にも標準で入れる予定なんやけどサボっててまだdevブランチにしかない -
>>185
サンガツ
用意できたわ
基本的にSBVのUIで事足りるからいらん気もするけど複数話者モデルでも連続再生できるのはアプデ待ちだったから助かるかな?
発音の区切りとかもちょっと違うんだろうかわからんけど -
英単語そのまま認識できたり、日本語アクセント周りでも辞書や独自ロジック追加したりいろいろ独自の改善はされてるっぽい
SBV2リポとAivisとの関係をどうするかは今議論中や -
たぶんここのスレ民がAivisに故人声優上げまくってて炎上しかけており草、もっとやれ
デフォモデルのAnneliちゃんには何も文句言われないとこみると、DMMボイスしかりやっぱ名前隠すのが正義なんやな -
なんで二次じゃないのににじボイスすなんだろ7色ところじゃないだろ
-
SBV2に>>156でanime-whisper入れて試してみとるんやけど
どうも結果が怪しいなと思ったら
「こんにちは。今日はいい天気ですね」が
「こんにちは。今日はいい天気でじゅるるるるるーっ!」
みたいに認識不能シチュかなんかか的なハルシネーションが大量に混ざっとった
入力音声の質かどっかパラメーターがダメなんやろか
それともreleaseブランチなのが悪さしとるんか? -
モデル共有はバカがやらかすから論外だよね
-
>>190
草、そこまでなるか?と思って試したら本当にそうやな、さすがに何かミスってそうやから確認するわ -
>>190
あーたぶん原因は初期プロンプトやな、ファインチューニングのときプロンプト入れて学習しとらんかったからたぶん変なことになっとる。
"こんにちは。元気、ですかー?ふふっ、私は……ちゃんと元気だよ!"となっとるところを消して試してみてくれ
まだ微妙に悪影響ある気がするけどだいぶマシになる。バージョンあげのときここちゃんと対応させるわ
ていうか前にもanime-whisper「デモよりSBV2での書き起こしがやたら悪い」ていう人おったな、そのときためさんで適当いってすまんかった -
Aivisさすがコンプラみたいな金にならないことは後回しなんだな
-
今はもう実名モデルは非表示になってるけど、出所の怪しい匂わせSBV2モデルが大量出品されてたBOOTHのような事態になるのは時間の問題だと思う
-
まあ覇権を取るためにはいいんじゃないですかね
イタチごっこでもプロバイダ責任制限法で逃げ続けられるんじゃないの?
利用者側はローカルで生成するだけならノーリスクなのでどんどんやって -
sbv2で学習初めて今色々試してるんだけど
これもしかして、ゲームの声のハッとかンッ、ンンッとかだけは学習できない?
そればっかり入ってるのエラーが起きたわデータが悪いのかな -
故人声優の声学習させていいかなんとか隆法にいたこしてもらうか・・・
-
>>193
今試してるんだけど、もしかして初期プロンプト空白にした方がいいの? -
>>199
自力でanime-whisperを追加している場合に関してはそう
他のもの(デフォのとか特にOpenAI系の)に関しては初期プロンプト入れてたほうがそれっぽい書き起こしになるので入れたほうがよい -
>>200
なるほど、僕はデフォだからそのままがいいのかな -
素人の声を使うのはヤだから誰か有名人が上げてくんねぇかな……
-
>>197
自動書き起こしでできたファイル(Data/モデル名/esd.list)の中見てみた?
そういう短い音声だとろくな書き起こしになってない気するから、手動修正するか、もうちょっとちゃんとセリフ喋ってるのを学習させたほうがええ気するで -
Anneli (NSFW).aivmxも消えてる?
-
>>203
そうなんだ、徐々に勉強していきますw -
>>193
消したらハルシネーション激減したわサンガツ -
今日初めて使ってみたんやがめっちゃ面白くて笑ったわ。なんやこのソフト
-
共有GPUしかない雑魚ノートPCでやってるから、10分の動画を学習させるのに11時間くらいかかってもうた
-
beatrice最新版の学習用webUI上げてくれてる人のお陰で手軽に学習試せた
たくさんあるパラメータの影響がどうなのか分からんからなんとも言えんけど、声質は似るけど喋り方の特徴までは学習しない感じ?
元のキャラクターを再現したい時はapplioの方が精度高くて向いてるっぽいのかなあ -
ベアトリスってなんのキャラや?
-
ベティで検索するのかしら
-
beatriceはリアルタイム変換とCPUだけで動くってのがウリで癖の再現は犠牲になってる
頑張ってモノマネしてください -
あ、ベア子か。さんがつ
-
ベアトリスって色んなキャラいるからどれのことなのかとw
-
RVCみたいなボイチェン規格だよ
ただRVCよりかなり軽い
CPUだけで動く -
rvcで声の抑揚は無理なんか?
多少ならそれなりにいけるっぽいがちょっと高い声出したらすぐかすれてまうわ
ちな1時間の音声データ200エポックで回してる
抑揚以外はまじで完璧なんだけどな・・ -
sbv2で学習したのをAIVMXに変換しようとしたけどonnxに変換するのが上手くいかないわwボイスサンプルは後でつけれるのか?それともsbv2で先出しておいた方がいいのか?
アプデ情報にもあるしaivisの人が使いやすい学習変換を作ってくれるのを待った方がいいか? -
>>218
音声ファイルだからSBV2で作っといたほうがいい -
スタイルテキストって付けられない?
-
>>219
そっちで作ったのをaivisで使いたくて意味無いかな? -
>>221
AIVM generatorで設定できるよ -
>>222
そうそう、それで試そうと思ったらonnxモデルがいるとかあって、その変換でつまずいちゃってw -
>>223
colabではdevブランチをクローンすれば出来た -
anime-whisperで初期プロンプト消すとかなり良くなるな
同人音声のちゅぱとか喘ぎも認識してくれてる
サンキューlitaginニキ -
RVCが更新再開ってマ?
-
V3はよ
てかRVCはマシンパワー使い過ぎなんだよ
ボイチェンとしては使いづらいわ -
weightsを使おう
-
超高音で掠れるのは実はSVCあるあるなのでデータが悪いとかじゃなさそう
解決方法は知りません -
https://github.com/Aivis-Project/aivmlib
SBV2 -> AivisSpeech形式は、これがもうpipで入るらしいからこれ使えばええっぽいで -
文字起こしってデフォルトでanime-whisperになる?
--use_hf_whisperを書き換えなきゃ駄目? -
まだ何も変えとらんからデフォではデフォのままやで
-
別口でクローンしなきゃ駄目?
-
>>235
今すぐ使いたいなら手動でソースコードの書き換えが必要 -
https://github.com/Plachtaa/seed-vc
Seed-VCがver1.0になってかなり凄いらしい -
Seed-VC入れたらもうRVCのモデルとか捨てちゃってもいいかなエポック別に持ちすぎた
短いsampleでStyle別に音声ファイルあれば学習データ持つより良い気がしてきた -
applioのトレーニングマニュアル読んでたら学習素材は10~30分にしろ、長すぎても精度落ちるぞ、なんて書かれてた
SBV2の学習も長すぎたら逆効果だったりしますか? -
RVCもやけど正解はない
データ量が長いとエポック数も多めに回したほうがちゃんと学習するのに時間が長くなる説もあり、そうするとやたら長いと時間のコスパが悪い
ただRVCは声質一定が望ましいけどSBV2は逆に多くの表現があったほうがええから、(ちゃんとデータの質担保すれば)個人的には多ければ多いだけいいと思ってる -
良かった
applioってバッチサイズの説明も8より4の方が時間かかるけど精度高くなるなんて書かれてて、うせやろ…?それならハイエンドグラボ無意味やん…って思ってた -
バッチサイズは出来に関係するのかね少ないとステップ数は増えるけども
-
音声データって長ければ長いほどエポック数少ない方がいいの?
1時間の音声データだったら100エポックくらいか? -
anime-whisperってタイムスタンプ付けれない?
-
>>245
これ俺も知りたい -
anime-whisperのタイムスタンプ、デフォのtransformersライブラリやOpenAIのライブラリのやつでは無理や
一応タイムスタンプ返す設定はできるが、ザルすぎるしハルシネが増加する
30秒未満の場合は
https://github.com/l.../whisper-timestamped
を組み合わせればわりとできる -
某discordでも、SBV2はバッチサイズ下げたほうがなんとなく質が良いという立場の人はまあまあおるな
あとデフォの学習率は高すぎ説はあって、それは確かにそうなんかも知らんと最近思い始めとる -
Aモデルからヌルマージモデル使って ささやきモデルを作ったのですが
これをAモデルに「ささやき」てスタイルで追加する方法を教えてください -
むりです
-
すごいなこれ
裏名義で違う演じ方してるのでも当ててくるわ -
にじボイスやAivisのサンプルボイス突っ込むと絶対これだろって学習元が出てきておもろいで
-
sbvはステレオ音声でも正常に学習できるのだろうか?🤔
-
たぶん自動的にモノラルに変換されてから学習される
-
にじボイスはもうだめだ、俺達にはsbv2しかねえ
-
なんかあったんか?
SBV2でだいぶ満足してるからまったくさわってねンだわ -
ダメじゃないし、波形の類似性で違法を認める法案でも通らん限り安泰やで
-
>>252
面白そう -
やってる人いたら教えてほしいんだけどbeatriceの学習が
\beatrice_trainerl__main__.py", line 3374, in ‹module>
batch = next(data_iter)
で全く進まないんだけど何か情報ある?
調べたら同じ箇所で詰まってる人はいたが解決策は見当たらなかった -
sbv2で,いくつかモデルを生成してみたけど,学習時にloss値の変動が激しいのが気になった。
200ステップおきでも上下に動きまくってるし,多様な素材でやってもその傾向は変わらず。 -
韓国語の読み上げAIも欲しいな
-
にじボイスは高すぎる月1000円で使い放題にしてくれ
-
文字数歩合制料金は悪手やろな
-
今のところエロTTSはSVB2.で学習が安牌?
-
にじボイスはこれがなあ
https://note.com/1230yuji -
DMM系のエロゲってTextractorで文章抜ける?ゲームによるんだろうけど、どうやって書き起こせばいいのか悩んでる…whisperにも限界はあるし
-
ちなみに言うと半年ぶりにやる気出て覗きに来たやで
今からちまちま過去ログ読むわ -
>>271
GARbroは試した?
github.com/crskycode/GARbro
テキスト抽出は一度GARbroで解凍したファイルを手動パースになりがちやけど
あとはまあanime-whisper -
ブラウザゲーは通信を覗く系使ったほうが元データ拾えるんじゃね
よく知らんけど -
Xににじボイスでウッキウキなおっさんの意見が沢山上がっとるわ
興味をもって調べる→自分で作るって流れにはならんようだな
>>274
DMMプレイヤー不要のブラウザゲーなら合ってる
サ終前のスレに通信からリッピングするスクリプト置いてく人とかいる -
にじボイス、すごく良いね!
自分でも色々調べてみたけど、やっぱりあのスピードは自宅サーバじゃ難しいかな。
うちのGPUが1050tiだから、ちょっと時間かかっちゃって…。
Runpodもちょっと試してみたんだけど、使うたびに数ドルずつ減っちゃうから、なかなか続けるのが難しい感じなんだよね。 -
276です。誤解のないように捕捉するけど、割とここは私より若い人が多いから
chatgptでフィルターをかけました。とげのない文章にしたかっただけなんだけど
後から読んだらAI丸出しですね -
普通の書き込みやん
逆にAIと向き合いすぎて色んな書き込みをAI認定しそうで怖いわ -
反応がないからAIが書いたことにして誤魔化したと解析AIが言ってた
-
chatgptはこの文章はあなたが書いたもの?ときと答えてくれてそうじゃないときの可能性も教えてくれる
-
対面の会話ですら、ARグラスに映し出されたカンペを読みながらAI音声で会話をする、という未来がありそうだな
-
>>271です
ブラウザで起動して音声データは抜けたんだけどなぜかそのフォルダ内にテキストデータがないんだよね…どこかに一括で格納されてるのかな?探してもないからとりあえずAnime-whisperでいいや -
>>166
今同じ状況なんだけどffmpeg入れて何やればいいの? -
>>283
ffmpeg入れてパスを通すだけ -
>>284
解決しました。無知でスミマセン -
テステス
このスレ生きてるんか? -
生きてるよ。熱心な人はディスコ行ってるけど
-
なんJRVC部のDiscord招待しんでて入れんわ
AI声づくり技術研究会のほうか? -
> AI声づくり技術研究会のほうか?
そうそっち。SBV2の人とかSeed-vcの人とかおるよ -
好みの声優の声でASMR作りたいのですが方法としては
・RVC…既存のASMR作品をもとに変換
・SBV2…自分でテキスト入力して作成する
って認識でいいですか?
あとオススメはどちらか教えてください -
>>291
ありがとうございます。試してみたらいい感じに変換してくれました -
仮性包茎おちんぽLoRAってなかったっけと思ったけど
そういやモザイク必要なんやったわ -
せやな
-
知らん間にapplioのモデル直ダウンロードが潰されてんな
-
どうなるか分からんねえ
シートベルト緩めてた
横転したら
たぶん惰性であとは成績次第 -
朝寒いの別に全然あり得たからな
どう争うの -
久しぶりに学習させようと思って音声作品漁ったけど
まずキャラクターにあう声見つけるの難C
そしてR18ボイスはすぐチュパチュパジュポジュポしやがってまともに喋ってんの冒頭の1分くらいで全然ダメだわ
全年齢……全年齢しか勝たん(あと催眠音声) -
silly tavern用にTTS始めようと思ってここに辿り着いたんだけど
一つのモデルで普通の声とオホ声を使い分けるのって難しいの?
ググってもCOEIROINKのクロワちゃんしか出てこないんだけど、クロワちゃんはずっとオホ声で喋り続けるんだよな -
現状ではないが、これからも成績良かったけどな
ほぼほぼ完全に完成してカッコ良かったけど -
いてわてせふそあはりれいぬかねせうやむおへらせにこせつをろせなそすらすうぬこまきね
-
そもそもモリカケの件メンバー会議みたいな部屋に大きな影響力あるんかこいつ
ダブスコ売ったのに負けて -
今でも言われてるみたいだけか
-
企画に組織票と資金集めの頃はマジで頭大丈夫か?洗脳されてんの?
Key「うおおおお我が社の全世界累計ワールドワイド売上バトルにも配慮が至らなかったことも暴露されたあいHD<3076>、
評価してるし、学力もエリートだからフィギュアスケート以外でも知名度もイマイチだから1人で取り囲んで実演させたりしたんだけど -
あと
5キロはいきたい
最近
いきなりコロナなる -
#GASYLE七不思議
-
重複してもいるが
めちゃくちゃ小便でるな -
職業 生涯 運転手が怪我して推せるのは
-
Aivisspeechは詰め込まずに適宜必要なやつだけ入れた方がいいんかね
-
スタイル分けしてもたまにオホ声が混ざるから
2つモデル作った方が綺麗に喋るかもしれん -
ゲームの素材は音質良いしきっちり前処理されてるしほんと最強
-
anime-whisperをブラウザからのダウンロード経由で導入する方法ってないやろか?
ワイの環境やとdataset.pyの書き換えやとモデルダウンロードに失敗して中断されちゃうわ
色々試してるんやけどどこに置けばええんかそもそも認識されるんかすらわからんが・・・ -
hf_hub_download()じゃだめなの?
-
SBV2で書き起こし出来なくなった
-
>>319
ここはお前の日記帳 -
winPythonとPortable 版 Gitを使ってseed-vcを入れることは可能なんやろか
持ち運びして運用したいがWinPythonが調べてもよく分からん -
実質VC総合スレみたいになってるな
勢い死んでるけど -
日本語はいまいちだけどhailuoって動画生成メインのAIが出してきた音声サービスもなかなか凄いな
英語なら完璧だわ -
Style-Bert-VITS2 雰囲気でマージしまくってると指数関数的にスタイル数が爆増してくな
スタイル一覧のテキストが100万字とかになってきてSillyTavernのUIがしぬほど重くなってきた -
RVCでボイスチェンジャー作ったんやが
indexの項目あげたら音声出力ないんやが
なんでや? -
ボイチェン作るときに作り忘れたんじゃないか?
-
去年の5月ぶりに来たんやけど今一番熱いTTS教えてクレメンス
まだStyle-Bert-VITS2でええやろか -
RTX50x0台ってRVC的にどんな感じですか。初挑戦してみたい5090の価格はきついけど。
-
illustriusで油絵っぽいの生成したいんだけどどんなプロンプトがあるんかな
今試してるのはoil painting, oilpaint style, traditional media, なんだけど多少色が濃くなってタッチが粗くなるくらいであまり効果を感じない
まさか絵師タグでレンブラントとか学習してるとも思えないし・・・ -
ダンボールにはoil_painting_(medium) というタグがあるがどうか
というかダンボールは日本語でも検索できるから存在すれば何でもすぐ見つかるぞ -
>>331
誤爆しおってこやつめ(*゚∀゚)σ)∀`)プニ♪ -
ささやき特化のTTS学習済みモデル「NiteBuzz」無料配布開始やでw
しっかしみんなGPT-SoVITS使ってんのかねえ
URL貼れないからboothで探してね -
>>329
Tsukasa-TTSとかかな
英語も含めるとKokoro-TTSとかだと思う
huggingfaceではHKUSTAudio/Llasa-3Bがトレンド入ってるけどこれはエアプなんでしらん -
Seed-VC、Windows10でgit cloneしてPython3.10入れてvenvをactivateしてからpip install -r requirements.txt(cuda12.4に併せてwhl/cu124に書き換え)したんだけど
app.pyでの音声変換は出来たんだけど、real-time-gui.pyでリアルタイム変換しようとマイクで喋っても変換後の音声がしゃっくり見たいな音しか出ない
今でもちゃんとリアルタイム変換ってできるんでしょうか?
↑今すぐ読める無料コミック大量配信中!↑