2-4.应用工具音频 | 第 2 页

Multi-Speaker：全球首个高分辨率多说话人声分离模型

Multi-Speaker简介 Multi-Speaker 是由 AudioShake 团队开发的全球首个高分辨率多说话人声分离模型。该模型能够将音频中的多个说话人精准分离到不同轨道，支...

2-4.应用工具音频

4个月前

Chirp 3 简介 Chirp 3 是由谷歌云开发的高清语音合成模型。该模型专为生成自然、生动且富有情感的语音而设计，支持 248 种不同声音和 31 种语言，能够捕捉人...

2-4.应用工具音频

4个月前

AudioX简介 AudioX 是由香港科技大学和月之暗面联合开发的多模态音频生成框架，旨在通过统一的模型架构实现从文本、视频、图像等多种输入模态生成高质量的音...

2-4.应用工具音频

4个月前

URO-Bench简介 URO-Bench是由上海交通大学人工智能教育部重点实验室（MoE Key Lab of Artificial Intelligence）和X-LANCE实验室的研究团队开发的一个全面的...

2-4.应用工具音频

4个月前

PodAgent简介 PodAgent是由香港中文大学、微软和小红书公司联合开发的播客生成框架。它通过创新的Host-Guest-Writer多智能体协作系统生成深度对话内容，结合...

2-4.应用工具音频

4个月前

Asyncflow v1.0 简介 Asyncflow v1.0 是由播客平台 Podcastle 开发团队推出的一款 AI 文本转语音模型。该模型支持超过 450 种语音选项，涵盖多种语言、性别和...

2-4.应用工具音频

4个月前

Spark-TTS简介 Spark-TTS 是一款基于大型语言模型（LLM）的高效文本到语音（TTS）系统。它以简洁高效的设计理念为核心，完全依赖于强大的 Qwen2.5 模型，无需...

2-4.应用工具音频

5个月前

WhisperChain简介 WhisperChain 是一款结合了语音识别与人工智能技术的高效语音转文字工具。它利用 Whisper.cpp 实现实时语音转录，并通过 LangChain 对生成...

2-4.应用工具音频

5个月前

IndexTTS简介 IndexTTS是由哔哩哔哩人工智能平台部开发的一款工业级可控且高效的零样本文本到语音（TTS）系统。该系统基于大型语言模型（LLM），结合了XTTS和...

2-4.应用工具音频

5个月前

Baichuan-Audio简介 Baichuan-Audio是由Baichuan公司开发的端到端音频大语言模型，专为实时语音交互设计。它通过预训练的ASR模型和多码本离散化技术，将语音...

2-4.应用工具音频

5个月前