2-4.应用工具音频
Multi-Speaker:全球首个高分辨率多说话人声分离模型
Multi-Speaker简介 Multi-Speaker 是由 AudioShake 团队开发的全球首个高分辨率多说话人声分离模型。该模型能够将音频中的多个说话人精准分离到不同轨道,支...
Chirp 3:谷歌云推出的高清语音合成模型
Chirp 3 简介 Chirp 3 是由谷歌云开发的高清语音合成模型。该模型专为生成自然、生动且富有情感的语音而设计,支持 248 种不同声音和 31 种语言,能够捕捉人...
AudioX:香港科技大学联合月之暗面推出的多模态音频生成框架
AudioX简介 AudioX 是由香港科技大学和月之暗面联合开发的多模态音频生成框架,旨在通过统一的模型架构实现从文本、视频、图像等多种输入模态生成高质量的音...
URO-Bench:全面的端到端语音对话模型基准测试
URO-Bench简介 URO-Bench是由上海交通大学人工智能教育部重点实验室(MoE Key Lab of Artificial Intelligence)和X-LANCE实验室的研究团队开发的一个全面的...
PodAgent:小红书联合微软等推出的播客生成框架
PodAgent简介 PodAgent是由香港中文大学、微软和小红书公司联合开发的播客生成框架。它通过创新的Host-Guest-Writer多智能体协作系统生成深度对话内容,结合...
Asyncflow v1.0:Podcastle 推出的AI 文本转语音模型
Asyncflow v1.0 简介 Asyncflow v1.0 是由播客平台 Podcastle 开发团队推出的一款 AI 文本转语音模型。该模型支持超过 450 种语音选项,涵盖多种语言、性别和...
Spark-TTS:支持中文和英文的高质量语音合成
Spark-TTS简介 Spark-TTS 是一款基于大型语言模型(LLM)的高效文本到语音(TTS)系统。它以简洁高效的设计理念为核心,完全依赖于强大的 Qwen2.5 模型,无需...
WhisperChain:能够将用户说话的内容即时转换为文字
WhisperChain简介 WhisperChain 是一款结合了语音识别与人工智能技术的高效语音转文字工具。它利用 Whisper.cpp 实现实时语音转录,并通过 LangChain 对生成...
IndexTTS:B 站推出的零样本文本转语音系统
IndexTTS简介 IndexTTS是由哔哩哔哩人工智能平台部开发的一款工业级可控且高效的零样本文本到语音(TTS)系统。该系统基于大型语言模型(LLM),结合了XTTS和...
Baichuan-Audio:Baichuan推出的端到端音频大语言模型
Baichuan-Audio简介 Baichuan-Audio是由Baichuan公司开发的端到端音频大语言模型,专为实时语音交互设计。它通过预训练的ASR模型和多码本离散化技术,将语音...