3-7.语音模型

MegaTTS 3:字节跳动开源的文本到语音模型

MegaTTS 3简介 MegaTTS 3是由字节跳动开源的高效文本到语音(TTS)模型。它以轻量级和高效性为特点,参数量仅0.45亿,却能实现超高音质的语音克隆,支持中文...

AudioX:香港科技大学联合月之暗面推出的多模态音频生成框架

AudioX简介 AudioX 是由香港科技大学和月之暗面联合开发的多模态音频生成框架,旨在通过统一的模型架构实现从文本、视频、图像等多种输入模态生成高质量的音...

R1-Omni:阿里通义推出的全模态情感识别模型

R1-Omni简介 R1-Omni是由阿里巴巴集团通义实验室开发的一种创新的全模态情感识别模型。该模型首次将强化学习与可验证奖励(RLVR)技术应用于多模态大语言模型...

Asyncflow v1.0:Podcastle 推出的AI 文本转语音模型

Asyncflow v1.0 简介 Asyncflow v1.0 是由播客平台 Podcastle 开发团队推出的一款 AI 文本转语音模型。该模型支持超过 450 种语音选项,涵盖多种语言、性别和...

Spark-TTS:支持中文和英文的高质量语音合成

Spark-TTS简介 Spark-TTS 是一款基于大型语言模型(LLM)的高效文本到语音(TTS)系统。它以简洁高效的设计理念为核心,完全依赖于强大的 Qwen2.5 模型,无需...

CSM:Sesame发布的超真实AI语音模型

CSM简介 CSM(Conversational Speech Model)是由Sesame团队开发的一款先进对话语音模型,旨在让AI语音交互更加自然和富有情感。它采用多模态Transformer架构...

Scribe:ElevenLabs推出的高精度语音转文本模型

Scribe简介 Scribe 是由 ElevenLabs 团队开发的高精度语音转文本模型。它专为复杂音频环境和多语言转录设计,支持超过 99 种语言,其中 25 种语言的词错率低...

Baichuan-Audio:Baichuan推出的端到端音频大语言模型

Baichuan-Audio简介 Baichuan-Audio是由Baichuan公司开发的端到端音频大语言模型,专为实时语音交互设计。它通过预训练的ASR模型和多码本离散化技术,将语音...

Llasa:香港科技大学等推出的语音合成模型

Llasa简介 Llasa是由香港科技大学、西北工业大学、北京科技大学、中国科学技术大学、香港中文大学、香港浸会大学、罗切斯特大学、上海摩拜信息技术有限公司等...

Indic Parler-TTS:Hugging Face等推出的多语言文本到语音模型

Indic Parler-TTS简介 Indic Parler-TTS 是一款由 Hugging Face 和 AI4Bharat 团队合作开发的多语言文本到语音(TTS)模型。它支持包括英语在内的 21 种印度...
1 2 3