We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
synthesis
f0
知りたいこと: synthesis のフレームスケール f0 で要求・想定される仕様
現在の synthesis 関数は AudioQuery からフレームスケール f0 を算出し、coreの .decode_forward() へ引き渡す。 算出過程ではモーラごとに「モーラピッチを子音・母音の両領域に一律割当て」している。
AudioQuery
.decode_forward()
voicevox_engine/voicevox_engine/synthesis_engine/synthesis_engine.py
Lines 200 to 204 in bd56215
Mora_f0(モーラ/f0), phnm_frm (音素種/継続フレーム長), frm_f0 (フレームスケールf0) の関係模式図:
Mora_f0
phnm_frm
frm_f0
Mora_f0 | ヒ_100 | ホ_0 | カ_200 | phnm_frm |h_1| i_2 |h_1|O_1| k_2 | a_3 | ↓ frm_f0 |100|100|100| 0| 0|200|200|200|200|200|
すなわちモデルは無声子音領域でも非ゼロのf0値を渡されるケースがある。
これらの背景からまず次の質問があります: Q1「モーラが持つピッチを子音・母音フレームで用いるのは意図された仕様か?」
これに関連して次の質問があります: Q2「モデル(core)側で想定されているフレームスケール f0 の制約は何か?」 例えばフレームごとに変動する f0 (下図)が入力されることは想定されていますか?
phnm_frm |h_1| i_2 |h_1|O_1| k_2 | a_3 | ↓ frm_f0 | 90|100|110| 0| 0|200|210|220|230|190|
Q2に関連しそうなissues/PRs:
0.14.10
Q1の回答がYesの場合、フレームスケール化をより簡潔にできるのでリファクタリングする予定です。
The text was updated successfully, but these errors were encountered:
詳細な質問ありがとうございます!
Q1はYesです! 最終的に人によるコントロールがある程度できるものを目指してました。 人は子音が無声かを意識していない(直感が無い)ので、子音の高さはコントロール可能にせず、AIに任せた形です。
Q2は一応Yesです! コアのAPI上はフレームレベルのF0の入力を想定しています(モデルがモーラレベルなだけ)。 この辺りProjectS周りでどうなるかは今のところ未定です…!
Sorry, something went wrong.
丁寧にありがとうございます! 現在の動作は意図した仕様、かつより繊細な入力も受け付けうる仕様、ということですね。
今後のリファクタリングやコメント改善に活用します👍
No branches or pull requests
質問の内容
知りたいこと:
synthesis
のフレームスケールf0
で要求・想定される仕様現在の
synthesis
関数はAudioQuery
からフレームスケールf0
を算出し、coreの.decode_forward()
へ引き渡す。算出過程ではモーラごとに「モーラピッチを子音・母音の両領域に一律割当て」している。
voicevox_engine/voicevox_engine/synthesis_engine/synthesis_engine.py
Lines 200 to 204 in bd56215
Mora_f0
(モーラ/f0),phnm_frm
(音素種/継続フレーム長),frm_f0
(フレームスケールf0) の関係模式図:すなわちモデルは無声子音領域でも非ゼロのf0値を渡されるケースがある。
これらの背景からまず次の質問があります:
Q1「モーラが持つピッチを子音・母音フレームで用いるのは意図された仕様か?」
これに関連して次の質問があります:
Q2「モデル(core)側で想定されているフレームスケール
f0
の制約は何か?」例えばフレームごとに変動する
f0
(下図)が入力されることは想定されていますか?Q2に関連しそうなissues/PRs:
VOICEVOXのバージョン
0.14.10
OSの種類/ディストリ/バージョン
その他
Q1の回答がYesの場合、フレームスケール化をより簡潔にできるのでリファクタリングする予定です。
The text was updated successfully, but these errors were encountered: