3-7.语音模型
LLaMA-Omni:中国科学院推出的低延迟语音交互模型
LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构,旨在实现与大型语言模型(LLMs)的无缝语音...
Moshi:实时对话的语音-文本端对端模型
Moshi简介 Moshi是由法国人工智能研究实验室Kyutai开发的一款先进的语音-文本基础模型,现已开源。它是一个用于实时对话的全双工语音对话框架。该模型通过将...
EzAudio:将文本描述转换为相应逼真的音频内容
EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略,在保持模型...
Faster Whisper:基于 OpenAI Whisper 模型的高效语音识别工具
Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具,它通过采用 CTranslate2 引擎实现快速推理,显著提升了语音转写的效...
Speech To Speech:HuggingFace推出的语音模型 可以实现低延迟语音对话
Speech To Speech简介 Speech-to-Speech 是由 Hugging Face 组织开发的一个开源项目,旨在构建一个模块化的语音到语音转换系统。该项目利用先进的人工智能技...
心辰Lingo:西湖心辰推出的国内首个端到端语音大模型
心辰Lingo简介 '心辰Lingo'是西湖心辰推出的端到端语音大模型,它具备原生的语音理解能力,能够识别语音中的文字信息以及情感、语气、音调等重要特征,提供更...
MooER:摩尔线程推出的自动语音识别&语音翻译模型
GPT Pilot简介 MooER是由摩尔线程开发的基于大型语言模型(LLM)的自动语音识别(ASR)和自动语音翻译(AST)模型。该模型利用5000小时的伪标记数据集进行训...
Seed-ASR:可识别不同语言、方言、口音的AI语音识别模型
Seed-ASR简介 Seed-ASR是由字节跳动的Seed团队开发的一款基于大型语言模型(LLM)的语音识别模型。它通过结合超过2亿参数的音频编码器和具有数十亿参数的专家...
Buzz:一个开源的离线音频转录和翻译工具
Buzz简介 Buzz是一个开源的离线音频转录和翻译工具,由OpenAI的Whisper模型提供技术支持。它允许用户在个人电脑上自动将音频文件转换成文字,同时支持多语言...
Whisper-Medusa:aiOla开源的AI语音识别模型
whisper-medusa简介 Whisper-Medusa是由aiOla推出的开源AI语音识别模型,它结合了OpenAI的Whisper模型和aiOla的技术,实现了超过50%的加速而不影响识别的准确...