F5-TTS：上海交通大学推出的非自回归文本到语音模型

0 30

F5-TTS简介

F5-TTS是由上海交通大学的研究团队开发的一种非自回归文本到语音模型，它采用了基于流匹配的扩散变换器技术。该系统通过简化的设计，无需复杂的时长模型或音素对齐，能够直接将文本转换为自然、流畅且忠实于原文的语音。F5-TTS在多语言数据集上进行了训练，展现了出色的零样本能力和高效的推理性能。此外，该团队还提出了一种创新的Sway Sampling策略，进一步提升了语音合成的自然度和说话者相似度，同时加快了训练和推理速度。F5-TTS的所有代码和模型检查点均已开源，以促进社区的进一步发展。

F5-TTS主要功能

文本到语音转换：将输入的文本直接转换成流畅、自然的语音输出。
零样本能力：无需针对特定语音或语言的训练，即可生成具有高度自然性和表现力的语音。
多语言支持：在多语言数据集上训练，能够处理和生成多种语言的语音。
无缝代码切换：能够在不同语言之间平滑切换，适用于多语言混合的文本输入。
速度控制效率：提供了有效的速度控制，允许用户调节语音输出的速度。

F5-TTS技术原理

流匹配（Flow Matching）：利用流匹配目标（Flow Matching Objective）来匹配从简单分布（如标准正态分布）到数据分布的概率路径，实现从噪声到目标语音的逐步转换。
扩散变换器（Diffusion Transformer, DiT）：作为模型的骨干网络，处理去噪过程，将噪声信号逐步转换为清晰的语音信号。
ConvNeXt模型：用于优化文本表示，使其更容易与语音特征对齐，增强文本到语音的转换自然度。
Sway Sampling策略：一种推理时的采样策略，通过非均匀采样流步骤，提高模型的生成质量和效率。
无需复杂设计：不依赖于传统的复杂设计，如时长模型、文本编码器或音素对齐，简化了系统架构。
字符级输入处理：将文本转换为字符序列，并使用填充标记调整到与输入语音相同的长度，以简化模型输入。
高效的推理时间：通过优化模型结构和采样策略，实现了较低的推理时间，提高了模型的实用性。
开源代码和模型：所有代码和检查点均已开源，便于社区进行进一步的研究和开发。