Zonos-v0.1：Zyphra推出的文本转语音模型

0 70

Zonos-v0.1简介

Zonos-v0.1是由Zyphra团队开发的文本到语音（TTS）模型，于2025年2月10日发布。它包含两个1.6B参数的模型：一个Transformer模型和一个SSM混合模型，后者是首个开源的SSM模型，专为TTS设计。Zonos-v0.1能够生成富有表现力的自然语音，并支持高保真语音克隆，仅需5到30秒的语音片段即可实现。它还支持多种语言（主要为英语），并可调节语速、音高、音质和情感，输出原生44KHz的语音。Zonos-v0.1经过约20万小时的语音数据训练，采用两阶段训练方法，优化了模型的鲁棒性和质量。其高效的推理引擎和优化架构使其在延迟和内存使用上表现出色。此外，Zonos-v0.1通过API和模型游乐场提供服务，支持每月免费100分钟的使用，并有多种订阅套餐可供选择。

Zonos-v0.1主要功能

高保真语音克隆：Zonos-v0.1能够通过5到30秒的语音片段实现高质量的语音克隆，生成的语音与原始语音高度相似。
多语言支持：主要支持英语，同时对中文、日语、法语、西班牙语和德语也有较好的支持，但对其他语言的支持不够稳健。
情感和语调控制：可以根据说话速率、音高标准差、音质和情感（如悲伤、恐惧、愤怒、快乐和惊讶）进行调节，生成富有表现力的自然语音。
高质量语音输出：原生支持44KHz的语音输出，确保生成的语音清晰自然。
API和模型游乐场：提供Python和TypeScript的API接口，用户可以通过Zonos的模型游乐场和API访问模型，进行语音生成和克隆。
灵活的订阅和定价方案：提供每分钟0.02美元的固定费率，以及每月免费100分钟和Pro Tier每月5美元提供300分钟的订阅选项，支持无限语音克隆和无并发生成限制。

Zonos-v0.1技术原理

双模型架构：Zonos-v0.1包含一个1.6B参数的Transformer模型和一个1.6B参数的SSM混合模型。SSM混合模型是首个开源的SSM模型，用于TTS。
训练数据：模型基于约20万小时的语音数据训练，涵盖中性语调（如有声读物旁白）和富有表现力的语音，主要为英语数据。
两阶段训练方法：
- 第一阶段：使用文本前缀和说话者嵌入进行预训练，占训练时间的70%。
- 第二阶段：加入条件输入（如语速、音高、音质和情感）并略微增加高质量数据的权重，占训练时间的30%。
高比特率音频编码器：使用descript音频编解码器（DAC）对原始语音波形进行编码，生成高质量的音频令牌。DAC是一个高比特率的自动编码器，虽然增加了预测难度，但提高了生成质量。
音素转换：将输入文本标准化后，使用eSpeak音素转换器将文本转换为音素，再由Transformer或混合模型预测音频令牌。
说话者嵌入：模型接收说话者嵌入作为输入，实现语音克隆能力。
条件输入：模型接收多个条件输入（如语速、音高、音质和情感），实现对生成语音的灵活控制。
优化的推理引擎：高效的推理引擎支持快速的首次音频生成（TTFA），混合模型在延迟和内存使用上表现更优，得益于其基于Mamba2的架构，减少了对注意力模块的依赖。