-
Notifications
You must be signed in to change notification settings - Fork 201
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
音声認識による自動調整 #231
Comments
面白いアイデアだと思います! が、この機能をエンジンに実装すべきかどうかは疑問です。 とはいえ面白い試みだとは思います。 とりあえず一旦closeします。 |
I don't think there could be a better place than engine for this feature. We can access the |
As a matter of fact, I do have some questions: Julius turns out to be pretty inaccurate, any advice in improving the quality of output? |
なるほど。
ESPNetに音声認識機能があります。Juliusよりは制度が良いかもしれません。 もしくは、音声認識(音素認識)はせず、ユーザーにテキストを入力してもらうという手もあるかもしれません(Seiren Voiceのように)。 |
前提条件の変化2024年3月時点の VOICEVOX ENGINE はモーラ単位・フレーム単位どちらの入力からも波形合成が可能になりました。 本 issue の状況現時点でアイデアが共有され、その意義や必要性は議論中との認識です。 @Hiroshiba |
どうするべきかかなり迷っています! というのも、有用だしどちらかといえば賛成なのですが、手が回らずかつすぐに手を回せる人もいないというタスクになっていそうです。 なにか他のOSSプロジェクトや製品で良い例があれば真似したいですね…。 |
ひとまずの対応として ENGINE の Roadmap を issue として用意しました(#1106)。 本 issue の状態 for Future本 issueは「意義はあるが、設計と実装を主導する人がまだいないため現状維持」の状態です。 |
内容
ちょっと伝えにくいかもしれませんが、たとえば、この動画にある
ユーザー音声>>合成音声
の機能を実装してみていきたいと思います。議論したいことについてですが、まずその可能な仕組みが2つあることです。
音声認識
>モーラごとの音素&ピッチ&長さ>GUI>synthesis
>合成音声音声認識
>フレームごとの音素&ピッチ>decode_forwarder
>合成音声1つ目にはユーザーの調整空間が広くなりますが、精度は下がるかもしれません。2つ目のは逆に精度が高いですけど、ユーザーは音声の他に何も調整できなくなります。両方を実装して、2つ目の仕組みを
高精度モード
という名前をつける手もあるんですが、これ書くコードが多くて面倒になりそうです。そして音声認識/合成を触ることは初めてですが、ここでこの実装は可能であるのかどうかわかりません。ご意見があればぜひ。
Pros 良くなる点
ユーザーの調整空間を広くなる
ボイスチェンジャーとして使えることになる
Cons 悪くなる点
やることが多い
実現方法
音素の抽出はJulius、音高の抽出はWORLDでできると思います。
ちょっと長さをどうすればいいのかよくわかりません。。。
The text was updated successfully, but these errors were encountered: