3-7.语音模型 | 柒柒AI导航

ChatTS：清华联合字节推出的新型多模态大语言模型

ChatTS项目简介 ChatTS是由清华大学和字节跳动的研究团队共同开发的一种新型多模态大语言模型（MLLM），专门用于时间序列分析。该模型通过合成数据进行训练，...

3-7.语音模型

4周前

Dolphin简介 Dolphin是由海天瑞声与清华大学电子工程系语音与音频技术实验室共同开发的大型多语言自动语音识别（ASR）模型。该模型基于Whisper架构进行扩展，...

3-7.语音模型

2个月前

MegaTTS 3简介 MegaTTS 3是由字节跳动开源的高效文本到语音（TTS）模型。它以轻量级和高效性为特点，参数量仅0.45亿，却能实现超高音质的语音克隆，支持中文...

2-4.应用工具音频

2个月前

AudioX简介 AudioX 是由香港科技大学和月之暗面联合开发的多模态音频生成框架，旨在通过统一的模型架构实现从文本、视频、图像等多种输入模态生成高质量的音...

2-4.应用工具音频

2个月前

R1-Omni简介 R1-Omni是由阿里巴巴集团通义实验室开发的一种创新的全模态情感识别模型。该模型首次将强化学习与可验证奖励（RLVR）技术应用于多模态大语言模型...

3-7.语音模型

2个月前

Asyncflow v1.0 简介 Asyncflow v1.0 是由播客平台 Podcastle 开发团队推出的一款 AI 文本转语音模型。该模型支持超过 450 种语音选项，涵盖多种语言、性别和...

2-4.应用工具音频

3个月前

Spark-TTS简介 Spark-TTS 是一款基于大型语言模型（LLM）的高效文本到语音（TTS）系统。它以简洁高效的设计理念为核心，完全依赖于强大的 Qwen2.5 模型，无需...

2-4.应用工具音频

3个月前

CSM简介 CSM（Conversational Speech Model）是由Sesame团队开发的一款先进对话语音模型，旨在让AI语音交互更加自然和富有情感。它采用多模态Transformer架构...

1-2.大模型&国外

3个月前

Scribe简介 Scribe 是由 ElevenLabs 团队开发的高精度语音转文本模型。它专为复杂音频环境和多语言转录设计，支持超过 99 种语言，其中 25 种语言的词错率低...

1-2.大模型&国外

3个月前

Baichuan-Audio简介 Baichuan-Audio是由Baichuan公司开发的端到端音频大语言模型，专为实时语音交互设计。它通过预训练的ASR模型和多码本离散化技术，将语音...

2-4.应用工具音频

3个月前