2-4.应用工具音频
Faster Whisper:基于 OpenAI Whisper 模型的高效语音识别工具
Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具,它通过采用 CTranslate2 引擎实现快速推理,显著提升了语音转写的效...
Seed-Music :字节豆包团队推出的一款音乐生成模型
Seed-Music简介 Seed-Music 是由字节跳动公司的豆包团队推出的一款音乐生成模型。它通过结合自回归语言模型和扩散模型,能够根据用户的多样化输入生成高质量...
Draw an Audio:将无声视频转换成包含日常音效的音频
Draw an Audio简介 Draw an Audio是由中国科学院自动化研究所和美团公司的研究团队共同开发的一种创新的视频到音频合成技术。该技术通过先进的遮罩注意力模块...
Speech To Speech:HuggingFace推出的语音模型 可以实现低延迟语音对话
Speech To Speech简介 Speech-to-Speech 是由 Hugging Face 组织开发的一个开源项目,旨在构建一个模块化的语音到语音转换系统。该项目利用先进的人工智能技...
ChatTTS-Forge:提供易于使用WebUI和接入各种TTS API服务的开源项目
ChatTTS-Forge简介 ChatTTS-Forge 是一个基于 TTS 生成模型开发的项目,它构建了一个功能全面的API服务器和一个基于Gradio的用户友好型Web界面。这个项目通过...
MooER:摩尔线程推出的自动语音识别&语音翻译模型
GPT Pilot简介 MooER是由摩尔线程开发的基于大型语言模型(LLM)的自动语音识别(ASR)和自动语音翻译(AST)模型。该模型利用5000小时的伪标记数据集进行训...
Seed-ASR:可识别不同语言、方言、口音的AI语音识别模型
Seed-ASR简介 Seed-ASR是由字节跳动的Seed团队开发的一款基于大型语言模型(LLM)的语音识别模型。它通过结合超过2亿参数的音频编码器和具有数十亿参数的专家...
Buzz:一个开源的离线音频转录和翻译工具
Buzz简介 Buzz是一个开源的离线音频转录和翻译工具,由OpenAI的Whisper模型提供技术支持。它允许用户在个人电脑上自动将音频文件转换成文字,同时支持多语言...
Whisper-Medusa:aiOla开源的AI语音识别模型
whisper-medusa简介 Whisper-Medusa是由aiOla推出的开源AI语音识别模型,它结合了OpenAI的Whisper模型和aiOla的技术,实现了超过50%的加速而不影响识别的准确...
SpeechGPT:复旦大学等推出的跨模态对话模型
SpeechGPT简介 SpeechGPT 是由复旦大学计算机科学学院和智能信息处理上海重点实验室的研究团队开发的一项创新技术。这项技术突破了传统大型语言模型的局限,...