3-7.语音模型
心辰Lingo:西湖心辰推出的国内首个端到端语音大模型
心辰Lingo简介 '心辰Lingo'是西湖心辰推出的端到端语音大模型,它具备原生的语音理解能力,能够识别语音中的文字信息以及情感、语气、音调等重要特征,提供更...
MooER:摩尔线程推出的自动语音识别&语音翻译模型
GPT Pilot简介 MooER是由摩尔线程开发的基于大型语言模型(LLM)的自动语音识别(ASR)和自动语音翻译(AST)模型。该模型利用5000小时的伪标记数据集进行训...
Seed-ASR:可识别不同语言、方言、口音的AI语音识别模型
Seed-ASR简介 Seed-ASR是由字节跳动的Seed团队开发的一款基于大型语言模型(LLM)的语音识别模型。它通过结合超过2亿参数的音频编码器和具有数十亿参数的专家...
Buzz:一个开源的离线音频转录和翻译工具
Buzz简介 Buzz是一个开源的离线音频转录和翻译工具,由OpenAI的Whisper模型提供技术支持。它允许用户在个人电脑上自动将音频文件转换成文字,同时支持多语言...
Whisper-Medusa:aiOla开源的AI语音识别模型
whisper-medusa简介 Whisper-Medusa是由aiOla推出的开源AI语音识别模型,它结合了OpenAI的Whisper模型和aiOla的技术,实现了超过50%的加速而不影响识别的准确...
Bark: Suno AI 推出的一个开源文本到音频模型
Bark简介 Bark 是由 Suno AI 推出的一个开源文本到音频模型,它基于转换器架构,能够生成逼真的多语言语音以及其他类型的音频,包括音乐、背景噪音和简单的音...
1
2