3-7.语音模型
ChatTS:清华联合字节推出的新型多模态大语言模型
ChatTS项目简介 ChatTS是由清华大学和字节跳动的研究团队共同开发的一种新型多模态大语言模型(MLLM),专门用于时间序列分析。该模型通过合成数据进行训练,...
Dolphin:海天瑞声联合清华推出的多语言自动语音识别模型
Dolphin简介 Dolphin是由海天瑞声与清华大学电子工程系语音与音频技术实验室共同开发的大型多语言自动语音识别(ASR)模型。该模型基于Whisper架构进行扩展,...
MegaTTS 3:字节跳动开源的文本到语音模型
MegaTTS 3简介 MegaTTS 3是由字节跳动开源的高效文本到语音(TTS)模型。它以轻量级和高效性为特点,参数量仅0.45亿,却能实现超高音质的语音克隆,支持中文...
AudioX:香港科技大学联合月之暗面推出的多模态音频生成框架
AudioX简介 AudioX 是由香港科技大学和月之暗面联合开发的多模态音频生成框架,旨在通过统一的模型架构实现从文本、视频、图像等多种输入模态生成高质量的音...
R1-Omni:阿里通义推出的全模态情感识别模型
R1-Omni简介 R1-Omni是由阿里巴巴集团通义实验室开发的一种创新的全模态情感识别模型。该模型首次将强化学习与可验证奖励(RLVR)技术应用于多模态大语言模型...
Asyncflow v1.0:Podcastle 推出的AI 文本转语音模型
Asyncflow v1.0 简介 Asyncflow v1.0 是由播客平台 Podcastle 开发团队推出的一款 AI 文本转语音模型。该模型支持超过 450 种语音选项,涵盖多种语言、性别和...
Spark-TTS:支持中文和英文的高质量语音合成
Spark-TTS简介 Spark-TTS 是一款基于大型语言模型(LLM)的高效文本到语音(TTS)系统。它以简洁高效的设计理念为核心,完全依赖于强大的 Qwen2.5 模型,无需...
CSM:Sesame发布的超真实AI语音模型
CSM简介 CSM(Conversational Speech Model)是由Sesame团队开发的一款先进对话语音模型,旨在让AI语音交互更加自然和富有情感。它采用多模态Transformer架构...
Scribe:ElevenLabs推出的高精度语音转文本模型
Scribe简介 Scribe 是由 ElevenLabs 团队开发的高精度语音转文本模型。它专为复杂音频环境和多语言转录设计,支持超过 99 种语言,其中 25 种语言的词错率低...
Baichuan-Audio:Baichuan推出的端到端音频大语言模型
Baichuan-Audio简介 Baichuan-Audio是由Baichuan公司开发的端到端音频大语言模型,专为实时语音交互设计。它通过预训练的ASR模型和多码本离散化技术,将语音...