Indic Parler-TTS：Hugging Face等推出的多语言文本到语音模型

0 10

Indic Parler-TTS简介

Indic Parler-TTS 是一款由 Hugging Face 和 AI4Bharat 团队合作开发的多语言文本到语音（TTS）模型。它支持包括英语在内的 21 种印度地区语言，如印地语、孟加拉语、泰米尔语等，覆盖了广泛的区域语言需求。该模型具备强大的语音合成能力，能够通过描述性文本控制语音的情感、语速、语调、背景噪音和清晰度等特征。它还支持 69 种独特的声音，并为每种语言提供了推荐的自然语音。Indic Parler-TTS 的训练数据超过 1806 小时，支持多种语言的高质量语音输出，尤其在印度本土语言的合成上表现出色，是区域语言技术的重要突破。

Indic Parler-TTS：Hugging Face等推出的多语言文本到语音模型

Indic Parler-TTS主要功能

多语言支持
- 官方支持语言：支持 21 种语言，包括 20 种印度地区语言（如印地语、孟加拉语、泰米尔语等）和英语。
- 非官方支持语言：还支持一些未正式列入的语言，如克什米尔语、旁遮普语等。
- 语言自动识别：模型能够自动识别输入文本的语言并生成相应语言的语音，无需手动指定。
语音多样性
- 69 种独特声音：提供 69 种不同的声音，覆盖所有支持的语言。
- 推荐声音：每种语言都有推荐的声音，优化了自然度和可理解性。
情感渲染
- 支持 10 种语言的情感提示：包括愤怒、快乐、悲伤、惊讶等。
- 情感控制：通过描述性文本控制语音的情感表达，如“快乐的语气”或“愤怒的语气”。
语音特征控制
- 语速控制：从慢速到快速，用户可以通过描述性文本调整语音的语速。
- 语调控制：支持高、低或平衡的语调。
- 背景噪音控制：可以生成从清晰无噪音到轻微背景噪音的语音。
- 回声控制：调整语音的远近感，从近距离到远距离。
- 表达性控制：从单调到富有表现力的语音。
特定说话者支持
- 指定说话者：用户可以通过描述性文本指定特定的说话者，如“Divya 的声音”。
- 说话者一致性：在多次生成中保持同一说话者的语音特征。
定制化输出
- 描述性文本输入：通过详细描述语音的特征（如语速、语调、情感等），生成高度定制化的语音。

Indic Parler-TTS技术原理

模型架构
- 基于预训练的 TTS 模型，经过在多语言数据集上微调而成。
- 使用两个不同的分词器：一个用于文本提示，一个用于描述性文本，以更好地处理多语言和多特征的输入。
数据驱动的训练
- 使用超过 1806 小时的多语言语音数据进行训练，涵盖多种语言和说话者。
- 数据集包括 GLOBE、IndicTTS、LIMMITS 等，覆盖多种语言和方言。
自然语言指导
- 通过自然语言描述（如“高语调、快速、快乐的语气”）来控制语音合成的特征。
- 利用先进的文本编码器和解码器架构，将描述性文本转化为具体的语音特征。
多语言处理能力
- 利用多语言数据集和先进的分词技术，模型能够自动识别和适应不同语言的输入。
- 支持多种语言的语音合成，同时保持高质量和自然度。
情感和风格迁移
- 通过情感和风格描述，模型可以将特定的情感或风格迁移到生成的语音中。
- 例如，用户可以通过描述“一个快乐的女性声音”来生成带有快乐情感的语音。
高质量语音合成
- 使用先进的声码器技术，生成高质量、自然的语音。
- 支持多种语音特征的调整，如清晰度、背景噪音、回声等，以满足不同场景的需求。