2-4.应用工具音频
URO-Bench:全面的端到端语音对话模型基准测试
URO-Bench简介 URO-Bench是由上海交通大学人工智能教育部重点实验室(MoE Key Lab of Artificial Intelligence)和X-LANCE实验室的研究团队开发的一个全面的...
PodAgent:小红书联合微软等推出的播客生成框架
PodAgent简介 PodAgent是由香港中文大学、微软和小红书公司联合开发的播客生成框架。它通过创新的Host-Guest-Writer多智能体协作系统生成深度对话内容,结合...
Asyncflow v1.0:Podcastle 推出的AI 文本转语音模型
Asyncflow v1.0 简介 Asyncflow v1.0 是由播客平台 Podcastle 开发团队推出的一款 AI 文本转语音模型。该模型支持超过 450 种语音选项,涵盖多种语言、性别和...
Spark-TTS:支持中文和英文的高质量语音合成
Spark-TTS简介 Spark-TTS 是一款基于大型语言模型(LLM)的高效文本到语音(TTS)系统。它以简洁高效的设计理念为核心,完全依赖于强大的 Qwen2.5 模型,无需...
WhisperChain:能够将用户说话的内容即时转换为文字
WhisperChain简介 WhisperChain 是一款结合了语音识别与人工智能技术的高效语音转文字工具。它利用 Whisper.cpp 实现实时语音转录,并通过 LangChain 对生成...
IndexTTS:B 站推出的零样本文本转语音系统
IndexTTS简介 IndexTTS是由哔哩哔哩人工智能平台部开发的一款工业级可控且高效的零样本文本到语音(TTS)系统。该系统基于大型语言模型(LLM),结合了XTTS和...
Baichuan-Audio:Baichuan推出的端到端音频大语言模型
Baichuan-Audio简介 Baichuan-Audio是由Baichuan公司开发的端到端音频大语言模型,专为实时语音交互设计。它通过预训练的ASR模型和多码本离散化技术,将语音...
Llasa:香港科技大学等推出的语音合成模型
Llasa简介 Llasa是由香港科技大学、西北工业大学、北京科技大学、中国科学技术大学、香港中文大学、香港浸会大学、罗切斯特大学、上海摩拜信息技术有限公司等...
Indic Parler-TTS:Hugging Face等推出的多语言文本到语音模型
Indic Parler-TTS简介 Indic Parler-TTS 是一款由 Hugging Face 和 AI4Bharat 团队合作开发的多语言文本到语音(TTS)模型。它支持包括英语在内的 21 种印度...
OSUM:西北工业大学开源的语音理解模型
OSUM简介 OSUM是由西北工业大学音频、语音与语言处理研究组(ASLP@NPU)开发的开源语音理解模型,旨在推动学术界在有限资源下对语音理解语言模型(SULMs)的...