We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
1、为什么v3和v4版本不支持ref_free?GPT预测的是all_phoneme对应的语义token,然后通过idx进行截断获取target_text对应的语义token,那是不是可以进行ref_free修改呢,不传入prompt_text,以及设置prompt为空,也不进行通过idx截断,GPT预测返回的就全是target_text对应的语义token。这样做也可以实现ref_free。 2、v3版本和v4版本不支持ref_free这样做的考虑是什么?如果在训练数据中,长音频数据比较少,训练出来的GPT在推理的时候是不是在ref_free的情况下更稳定呢。
The text was updated successfully, but these errors were encountered:
CFM
Sorry, something went wrong.
刚刚看了一下,确实如果使用CFM进行mel生成的话,需要prompt_text。
因为发v3v4的主要原因是cfm的参考音频部分能引导后续生成的音频的音色大幅接近参考音色 如果不用ref,那v3v4发布就没有意义了,应该去用v1v2
No branches or pull requests
1、为什么v3和v4版本不支持ref_free?GPT预测的是all_phoneme对应的语义token,然后通过idx进行截断获取target_text对应的语义token,那是不是可以进行ref_free修改呢,不传入prompt_text,以及设置prompt为空,也不进行通过idx截断,GPT预测返回的就全是target_text对应的语义token。这样做也可以实现ref_free。
2、v3版本和v4版本不支持ref_free这样做的考虑是什么?如果在训练数据中,长音频数据比较少,训练出来的GPT在推理的时候是不是在ref_free的情况下更稳定呢。
The text was updated successfully, but these errors were encountered: