使用MOSS-TTS目前遇到的几个问题，希望下一代能改进。

1. 生成速度太慢了。无论是1.7B还是8B模型，在 32 RVQ下生成速度居然差不多。。。也可以说是没有差别，都一样的慢。我使用的是RTX4090 24G显卡来进行生成，也安装了flash_attn-2.8.3。1.7B虽然可以通过调节 RVQ 来提升生成速度，但是声音质量下降的很厉害。
2. 克隆声音不稳定，克隆的声音存在不稳定，有时候几句是按照克隆音频，但是有些句子会改变声调，偏离了克隆音频的声调。还有每句开头不会预留一点空隙来作为缓冲，使得有些句子开头的第一个词语听上去突然变得急促。
3. 使用时长控制生成的结果会存在吞字，不完整的现象。例如我给字幕生成语音，`Come learn with me.` 这句话原本时长只有 `0.780` 秒，生成出来的结果有可能只有`Come learn with` 或者`Come learn`，后面的单词不会生成。

我很喜欢你们的这个 TTS 模型，尤其是目前 TTS 开源模型中唯一的一个有时长控制功能，但是使用起来硬件过于要求高，基础表现的稳定性不如其他TTS。

希望下一代能改进这些问题！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

使用MOSS-TTS目前遇到的几个问题，希望下一代能改进。 #109

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

使用MOSS-TTS目前遇到的几个问题，希望下一代能改进。 #109

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions