vits — 会AI导航

vits是github开源项目，具有对抗性学习的条件变分自动编码器，用于端到端文本到语音的转换。这是一种并行的端到端 TTS 方法，它可以生成比当前两阶段模型更自然的音频。此方法采用通过归一化流程和对抗性训练过程增强的变分推理，提高了生成模型的表达能力。项目还提出了一个随机持续时间预测器，用于从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机持续时间预测器，vits表达了自然的一对多关系，其中文本输入可以以不同的音调和节奏以多种方式说出。