3-7.语音模型

Takin AudioLLM:喜马拉雅推出的零样本语音生成模型

Takin AudioLLM简介 Takin AudioLLM是由喜马拉雅的Everest团队开发的一款先进的零样本语音生成模型,包括Takin TTS、Takin VC和Takin Morphing三个模型,专为...

Fugatto:英伟达推出的一款多功能音频合成和转换模型

Fugatto简介 Fugatto是由NVIDIA团队开发的一款多功能音频合成和转换模型,它能够理解和执行自由形式的文本指令,并结合可选的音频输入进行创作。该模型通过特...

MaskGCT:香港中文大学&趣丸网络科技联合推出的语音合成模型

MaskGCT简介 MaskGCT是由香港中文大学(深圳)和广州趣丸网络科技有限公司联合推出的一种零样本文本到语音合成模型。该系统采用了一种创新的非自回归方法,通...

GLM-4-Voice:智谱AI于推出的端到端情感语音模型

GLM-4-Voice简介 GLM-4-Voice是智谱AI于推出的端到端情感语音模型,旨在提升人机交互的自然性和灵活性。该模型具备情感理解与表达能力,能够模拟多种情绪并实...

F5-TTS:上海交通大学推出的非自回归文本到语音模型

F5-TTS简介 F5-TTS是由上海交通大学的研究团队开发的一种非自回归文本到语音模型,它采用了基于流匹配的扩散变换器技术。该系统通过简化的设计,无需复杂的时...

LLaMA-Omni:中国科学院推出的低延迟语音交互模型

LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构,旨在实现与大型语言模型(LLMs)的无缝语音...

Moshi:实时对话的语音-文本端对端模型

Moshi简介 Moshi是由法国人工智能研究实验室Kyutai开发的一款先进的语音-文本基础模型,现已开源。它是一个用于实时对话的全双工语音对话框架。该模型通过将...

EzAudio:将文本描述转换为相应逼真的音频内容

EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略,在保持模型...

Faster Whisper:基于 OpenAI Whisper 模型的高效语音识别工具

Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具,它通过采用 CTranslate2 引擎实现快速推理,显著提升了语音转写的效...

Speech To Speech:HuggingFace推出的语音模型 可以实现低延迟语音对话

Speech To Speech简介 Speech-to-Speech 是由 Hugging Face 组织开发的一个开源项目,旨在构建一个模块化的语音到语音转换系统。该项目利用先进的人工智能技...
1 2