2-4.应用工具音频
MegaTTS 3:字节跳动开源的文本到语音模型
MegaTTS 3简介 MegaTTS 3是由字节跳动开源的高效文本到语音(TTS)模型。它以轻量级和高效性为特点,参数量仅0.45亿,却能实现超高音质的语音克隆,支持中文...
EmotiVoice:网易有道开源的语音合成系统
EmotiVoice简介 EmotiVoice是由网易有道开发的一款开源多语音和提示控制的文本到语音(TTS)系统。它支持英语和中文,拥有超过2000种不同的语音选择,并具备...
PaddleSpeech:百度飞桨团队开源的全功能语音处理工具包
PaddleSpeech简介 PaddleSpeech是由百度飞桨团队开发的一个开源的、全功能的语音处理工具包。它旨在通过提供易于使用的命令行界面和简洁的代码结构,降低语音...
MoshiVis:Kyutai开源的多模态语音模型
MoshiVis简介 MoshiVis是由Kyutai开源的多模态语音模型,旨在结合视觉理解和语音交互能力,使模型能够自然地与用户进行关于图像内容的实时语音对话。该模型基...
Soundwave:香港中文大学推出的语音理解模型
Soundwave简介 Soundwave是由香港中文大学(深圳)的研究团队开发的一种高效的语音与文本对齐技术,旨在提升语音大语言模型(LLMs)的数据效率。该团队针对语...
AbletonMCP:实现更高效的音乐制作流程
AbletonMCP简介 AbletonMCP 是一个将 Ableton Live 与 Claude AI 通过 Model Context Protocol (MCP) 连接起来的集成工具。它允许 Claude AI 直接控制和操作 ...
Orpheus-TTS:无需预先微调即可克隆任意声音
Orpheus-TTS简介 Orpheus-TTS是由Canopy AI团队开发的开源文本到语音(TTS)系统,基于Llama-3b模型构建。它展现了使用大型语言模型(LLM)进行语音合成的新...
Multi-Speaker:全球首个高分辨率多说话人声分离模型
Multi-Speaker简介 Multi-Speaker 是由 AudioShake 团队开发的全球首个高分辨率多说话人声分离模型。该模型能够将音频中的多个说话人精准分离到不同轨道,支...
Chirp 3:谷歌云推出的高清语音合成模型
Chirp 3 简介 Chirp 3 是由谷歌云开发的高清语音合成模型。该模型专为生成自然、生动且富有情感的语音而设计,支持 248 种不同声音和 31 种语言,能够捕捉人...
AudioX:香港科技大学联合月之暗面推出的多模态音频生成框架
AudioX简介 AudioX 是由香港科技大学和月之暗面联合开发的多模态音频生成框架,旨在通过统一的模型架构实现从文本、视频、图像等多种输入模态生成高质量的音...