2-4.应用工具音频

JavisDiT:同时生成高质量的音频和视频内容

JavisDiT简介 JavisDiT是一种新型的联合音频-视频扩散变换器,专门用于从开放式用户提示中同时生成高质量的音频和视频内容,并确保两者的精确同步。它基于强...

Krillin AI:支持音视频翻译、配音和语音克隆

Krillin AI 简介 Krillin AI 是一款开源的全能型音视频本地化与增强工具。它支持音视频翻译、配音和语音克隆,能够一键启动,自动安装依赖,无需复杂配置。它...

VoiceCanvas:开源的文本转语音系统

VoiceCanvas简介 VoiceCanvas 是一款开源的文本转语音系统,支持超过 50 种语言和多种音色选择,还具备声音克隆功能。它集成多种语音服务,如 OpenAI TTS、AW...

MegaTTS 3:字节跳动开源的文本到语音模型

MegaTTS 3简介 MegaTTS 3是由字节跳动开源的高效文本到语音(TTS)模型。它以轻量级和高效性为特点,参数量仅0.45亿,却能实现超高音质的语音克隆,支持中文...

EmotiVoice:网易有道开源的语音合成系统

EmotiVoice简介 EmotiVoice是由网易有道开发的一款开源多语音和提示控制的文本到语音(TTS)系统。它支持英语和中文,拥有超过2000种不同的语音选择,并具备...

PaddleSpeech:百度飞桨团队开源的全功能语音处理工具包

PaddleSpeech简介 PaddleSpeech是由百度飞桨团队开发的一个开源的、全功能的语音处理工具包。它旨在通过提供易于使用的命令行界面和简洁的代码结构,降低语音...

MoshiVis:Kyutai开源的多模态语音模型

MoshiVis简介 MoshiVis是由Kyutai开源的多模态语音模型,旨在结合视觉理解和语音交互能力,使模型能够自然地与用户进行关于图像内容的实时语音对话。该模型基...

Soundwave:香港中文大学推出的语音理解模型

Soundwave简介 Soundwave是由香港中文大学(深圳)的研究团队开发的一种高效的语音与文本对齐技术,旨在提升语音大语言模型(LLMs)的数据效率。该团队针对语...

AbletonMCP:实现更高效的音乐制作流程

AbletonMCP简介 AbletonMCP 是一个将 Ableton Live 与 Claude AI 通过 Model Context Protocol (MCP) 连接起来的集成工具。它允许 Claude AI 直接控制和操作 ...

Orpheus-TTS:无需预先微调即可克隆任意声音

Orpheus-TTS简介 Orpheus-TTS是由Canopy AI团队开发的开源文本到语音(TTS)系统,基于Llama-3b模型构建。它展现了使用大型语言模型(LLM)进行语音合成的新...
1 2 3 6