3-7.语音模型
Llasa:香港科技大学等推出的语音合成模型
Llasa简介 Llasa是由香港科技大学、西北工业大学、北京科技大学、中国科学技术大学、香港中文大学、香港浸会大学、罗切斯特大学、上海摩拜信息技术有限公司等...
Indic Parler-TTS:Hugging Face等推出的多语言文本到语音模型
Indic Parler-TTS简介 Indic Parler-TTS 是一款由 Hugging Face 和 AI4Bharat 团队合作开发的多语言文本到语音(TTS)模型。它支持包括英语在内的 21 种印度...
OSUM:西北工业大学开源的语音理解模型
OSUM简介 OSUM是由西北工业大学音频、语音与语言处理研究组(ASLP@NPU)开发的开源语音理解模型,旨在推动学术界在有限资源下对语音理解语言模型(SULMs)的...
Step-Audio:阶跃星辰团队推出的开源智能语音交互框架
Step-Audio简介 Step-Audio是由阶跃星辰团队开发的开源智能语音交互框架,旨在解决现有开源语音模型在数据采集成本、动态控制能力和智能水平方面的局限性。该...
Zonos-v0.1:Zyphra推出的文本转语音模型
Zonos-v0.1简介 Zonos-v0.1是由Zyphra团队开发的文本到语音(TTS)模型,于2025年2月10日发布。它包含两个1.6B参数的模型:一个Transformer模型和一个SSM混合...
FireRedASR:小红书开源的普通话自动语音识别模型
FireRedASR简介 FireRedASR是由小红书开源的普通话自动语音识别(ASR)模型系列,旨在满足不同应用场景对性能和效率的需求。该模型家族包含两个变体:FireRed...
Takin AudioLLM:喜马拉雅推出的零样本语音生成模型
Takin AudioLLM简介 Takin AudioLLM是由喜马拉雅的Everest团队开发的一款先进的零样本语音生成模型,包括Takin TTS、Takin VC和Takin Morphing三个模型,专为...
Fugatto:英伟达推出的一款多功能音频合成和转换模型
Fugatto简介 Fugatto是由NVIDIA团队开发的一款多功能音频合成和转换模型,它能够理解和执行自由形式的文本指令,并结合可选的音频输入进行创作。该模型通过特...
MaskGCT:香港中文大学&趣丸网络科技联合推出的语音合成模型
MaskGCT简介 MaskGCT是由香港中文大学(深圳)和广州趣丸网络科技有限公司联合推出的一种零样本文本到语音合成模型。该系统采用了一种创新的非自回归方法,通...
GLM-4-Voice:智谱AI于推出的端到端情感语音模型
GLM-4-Voice简介 GLM-4-Voice是智谱AI于推出的端到端情感语音模型,旨在提升人机交互的自然性和灵活性。该模型具备情感理解与表达能力,能够模拟多种情绪并实...