Skip to content

使用MOSS-TTS目前遇到的几个问题,希望下一代能改进。 #109

@despairTK

Description

@despairTK
  1. 生成速度太慢了。无论是1.7B还是8B模型,在 32 RVQ下生成速度居然差不多。。。也可以说是没有差别,都一样的慢。我使用的是RTX4090 24G显卡来进行生成,也安装了flash_attn-2.8.3。1.7B虽然可以通过调节 RVQ 来提升生成速度,但是声音质量下降的很厉害。
  2. 克隆声音不稳定,克隆的声音存在不稳定,有时候几句是按照克隆音频,但是有些句子会改变声调,偏离了克隆音频的声调。还有每句开头不会预留一点空隙来作为缓冲,使得有些句子开头的第一个词语听上去突然变得急促。
  3. 使用时长控制生成的结果会存在吞字,不完整的现象。例如我给字幕生成语音,Come learn with me. 这句话原本时长只有 0.780 秒,生成出来的结果有可能只有Come learn with 或者Come learn,后面的单词不会生成。

我很喜欢你们的这个 TTS 模型,尤其是目前 TTS 开源模型中唯一的一个有时长控制功能,但是使用起来硬件过于要求高,基础表现的稳定性不如其他TTS。

希望下一代能改进这些问题!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions