- 生成速度太慢了。无论是1.7B还是8B模型,在 32 RVQ下生成速度居然差不多。。。也可以说是没有差别,都一样的慢。我使用的是RTX4090 24G显卡来进行生成,也安装了flash_attn-2.8.3。1.7B虽然可以通过调节 RVQ 来提升生成速度,但是声音质量下降的很厉害。
- 克隆声音不稳定,克隆的声音存在不稳定,有时候几句是按照克隆音频,但是有些句子会改变声调,偏离了克隆音频的声调。还有每句开头不会预留一点空隙来作为缓冲,使得有些句子开头的第一个词语听上去突然变得急促。
- 使用时长控制生成的结果会存在吞字,不完整的现象。例如我给字幕生成语音,
Come learn with me. 这句话原本时长只有 0.780 秒,生成出来的结果有可能只有Come learn with 或者Come learn,后面的单词不会生成。
我很喜欢你们的这个 TTS 模型,尤其是目前 TTS 开源模型中唯一的一个有时长控制功能,但是使用起来硬件过于要求高,基础表现的稳定性不如其他TTS。
希望下一代能改进这些问题!
Come learn with me.这句话原本时长只有0.780秒,生成出来的结果有可能只有Come learn with或者Come learn,后面的单词不会生成。我很喜欢你们的这个 TTS 模型,尤其是目前 TTS 开源模型中唯一的一个有时长控制功能,但是使用起来硬件过于要求高,基础表现的稳定性不如其他TTS。
希望下一代能改进这些问题!