MaskGCT：香港中文大学&趣丸网络科技联合推出的语音合成模型

3-7.语音模型2个月前更新 AI-77

0 70

MaskGCT简介

MaskGCT是由香港中文大学（深圳）和广州趣丸网络科技有限公司联合推出的一种零样本文本到语音合成模型。该系统采用了一种创新的非自回归方法，通过掩码生成编解码器变换器技术，能够在无需显式的文本与语音对齐信息和音素级持续时间预测的情况下，直接从文本生成高质量的语音。MaskGCT在大规模数据集上的训练结果显示，它在语音质量、相似性和可理解性方面均超越了现有的零样本TTS系统，展现了其在多种语音生成任务中的潜力和灵活性。

MaskGCT：香港中文大学&趣丸网络科技联合推出的语音合成模型

MaskGCT主要功能

零样本文本到语音合成：MaskGCT能够在没有看过的说话者数据上进行语音合成，即在没有特定说话者训练数据的情况下生成语音。
无需显式对齐信息：模型不需要文本和语音之间的精确时间对齐信息，这简化了训练流程并减少了数据需求。
语义到声学的两阶段模型：首先从文本预测语义令牌，然后基于这些语义令牌预测声学令牌，实现从文本到语音的转换。
并行生成：在推理时，MaskGCT能够并行生成指定长度的语音令牌，提高了语音合成的效率。
掩码和预测学习范式：通过训练模型预测部分被掩码的令牌，增强了模型对语音数据的理解能力。
语音的多样性和控制性：用户可以控制生成语音的总时长，以及通过不同的输入文本生成具有不同情感和风格的语音。

MaskGCT技术原理

掩码生成模型：MaskGCT采用了掩码和预测的学习范式，通过随机掩码输入序列的一部分，迫使模型学习从剩余可见部分重建完整的语音表示。
非自回归架构：与传统的自回归模型不同，MaskGCT采用了非自回归架构，可以并行处理数据，提高了语音合成的速度。
语义和声学令牌：模型使用从语音自监督学习模型中提取的语义令牌和基于这些语义令牌的声学令牌，这种离散表示有助于减少信息丢失并提高语音质量。
VQ-VAE量化：使用向量量化变分自编码器（VQ-VAE）来量化语音自监督学习嵌入，而不是传统的k-means聚类，以保持更多的语义信息。
迭代并行解码：在推理阶段，模型通过迭代并行解码生成语音，每次迭代都会逐步改善语音的质量。
多任务扩展性：MaskGCT不仅可以用于语音合成，还可以通过简单的修改或外部工具的支持，扩展到语音翻译、情感控制、语音内容编辑和声音转换等任务。

MaskGCT应用场景

有声读物制作：MaskGCT可以将电子文本书籍转换成有声格式，为视障人士或喜欢听书的用户提供优质的听觉体验。
虚拟助手和聊天机器人：在智能设备和在线服务中，MaskGCT能够为虚拟助手提供自然逼真的语音输出，提升用户交互体验。
语言学习应用：该技术可以用于生成标准发音的语音示例，帮助语言学习者练习发音和听力。
自动新闻广播：MaskGCT能够将新闻稿快速转换成语音播报，为在线新闻平台和广播电台提供自动化的新闻朗读服务。
视频游戏和虚拟现实：在游戏中，MaskGCT可以为非玩家角色（NPC）生成逼真的对话，增强游戏的沉浸感和互动性。
企业客服系统：在自动客服和电话系统中，MaskGCT可以提供自然流畅的语音回复，提高客户服务的效率和质量。

MaskGCT项目入口

- 在线体验：https://voice.funnycp.com/
- GitHub代码库：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
- HuggingFace模型库：https://huggingface.co/amphion/MaskGCT
- arXiv技术论文：https://arxiv.org/pdf/2409.00750v2

# 3-7.语音模型 # 3.AI大模型数据库 # AI开源项目 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

OmniSQL：字节联合人大等开源的Text-to-SQL模型

AI-77cn

30

PaintsUndo：输入静态图像自动生成整个绘画过程的视频

AI-77cn

30

MagicVideo-V2：字节研究团队开发的视频生成模型

AI-77cn

100

URO-Bench：全面的端到端语音对话模型基准测试

AI-77cn

20

DistriFusion：显著减少使用扩散模型生成高分辨率图像所需的时间

AI-77cn

80

Distill Any Depth：知识蒸馏框架的单目深度估计方法

AI-77cn

31

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号