3-7.语音模型

Faster Whisper:基于 OpenAI Whisper 模型的高效语音识别工具

Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具,它通过采用 CTranslate2 引擎实现快速推理,显著提升了语音转写的效...

Speech To Speech:HuggingFace推出的语音模型 可以实现低延迟语音对话

Speech To Speech简介 Speech-to-Speech 是由 Hugging Face 组织开发的一个开源项目,旨在构建一个模块化的语音到语音转换系统。该项目利用先进的人工智能技...

心辰Lingo:西湖心辰推出的国内首个端到端语音大模型

心辰Lingo简介 '心辰Lingo'是西湖心辰推出的端到端语音大模型,它具备原生的语音理解能力,能够识别语音中的文字信息以及情感、语气、音调等重要特征,提供更...

MooER:摩尔线程推出的自动语音识别&语音翻译模型

GPT Pilot简介 MooER是由摩尔线程开发的基于大型语言模型(LLM)的自动语音识别(ASR)和自动语音翻译(AST)模型。该模型利用5000小时的伪标记数据集进行训...

Seed-ASR:可识别不同语言、方言、口音的AI语音识别模型

Seed-ASR简介 Seed-ASR是由字节跳动的Seed团队开发的一款基于大型语言模型(LLM)的语音识别模型。它通过结合超过2亿参数的音频编码器和具有数十亿参数的专家...

Buzz:一个开源的离线音频转录和翻译工具

Buzz简介 Buzz是一个开源的离线音频转录和翻译工具,由OpenAI的Whisper模型提供技术支持。它允许用户在个人电脑上自动将音频文件转换成文字,同时支持多语言...

Whisper-Medusa:aiOla开源的AI语音识别模型

whisper-medusa简介 Whisper-Medusa是由aiOla推出的开源AI语音识别模型,它结合了OpenAI的Whisper模型和aiOla的技术,实现了超过50%的加速而不影响识别的准确...

Bark: Suno AI 推出的一个开源文本到音频模型

Bark简介 Bark 是由 Suno AI 推出的一个开源文本到音频模型,它基于转换器架构,能够生成逼真的多语言语音以及其他类型的音频,包括音乐、背景噪音和简单的音...