2-4.应用工具音频 | 第 3 页

Llasa：香港科技大学等推出的语音合成模型

Llasa简介 Llasa是由香港科技大学、西北工业大学、北京科技大学、中国科学技术大学、香港中文大学、香港浸会大学、罗切斯特大学、上海摩拜信息技术有限公司等...

2-4.应用工具音频

5个月前

Indic Parler-TTS简介 Indic Parler-TTS 是一款由 Hugging Face 和 AI4Bharat 团队合作开发的多语言文本到语音（TTS）模型。它支持包括英语在内的 21 种印度...

2-4.应用工具音频

5个月前

OSUM简介 OSUM是由西北工业大学音频、语音与语言处理研究组（ASLP@NPU）开发的开源语音理解模型，旨在推动学术界在有限资源下对语音理解语言模型（SULMs）的...

2-4.应用工具音频

5个月前

TIGER简介 TIGER（Time-frequency Interleaved Gain Extraction and Reconstruction network）是由清华大学计算机系、清华-IDG/麦戈文脑科学研究院以及北京脑...

2-4.应用工具音频

5个月前

PDF to Podcast简介 “PDF to Podcast”是由NVIDIA AI Blueprint团队开发的一项创新应用，旨在将PDF文档高效转换为音频内容，生成引人入胜的播客。它基于NVIDIA...

2-4.应用工具音频

5个月前

InspireMusic简介 InspireMusic 是由阿里巴巴通义实验室开发的开源音乐生成框架，旨在通过人工智能技术赋能音乐创作。它基于自回归 Transformer 和音频标...

2-4.应用工具音频

5个月前

Zonos-v0.1简介 Zonos-v0.1是由Zyphra团队开发的文本到语音（TTS）模型，于2025年2月10日发布。它包含两个1.6B参数的模型：一个Transformer模型和一个SSM混合...

2-4.应用工具音频

5个月前

FireRedASR简介 FireRedASR是由小红书开源的普通话自动语音识别（ASR）模型系列，旨在满足不同应用场景对性能和效率的需求。该模型家族包含两个变体：FireRed...

2-4.应用工具音频

5个月前

XMusic简介 XMusic是由腾讯公司开发的一个通用化且可控的符号音乐生成框架。它能够通过多种灵活的提示，如图像、视频、文本、标签和哼唱，生成具有情感控制和...

2-4.应用工具音频

6个月前

TAAE简介 TAAE是由Stability AI推出一种新型的神经音频编解码模型，它利用基于Transformer的架构和有限标量量化（FSQ）技术，在极低的比特率下实现高质量的语...

2-4.应用工具音频

6个月前