2-4.应用工具音频
Whispo:通过简单的按键操作 快速将语音内容转化为文本
Whispo简介 Whispo是一款基于人工智能的语音转录工具,利用先进的Whisper技术将语音实时转换为文本。它支持多种平台,用户只需按住Ctrl键开始录音,释放后即...
Moonshine:专为实时语音转录和命令处理而优化的语音识别模型
Moonshine简介 Moonshine是一套专为实时语音转录和命令处理而优化的语音识别模型。基于编码器-解码器变换器架构,并采用旋转位置嵌入(RoPE)技术,它在不使用...
AMT-APC:自动将原始音频轨道转换成钢琴伴奏的MIDI格式
AMT-APC简介 AMT-APC是由Musashino University的数据科学学院开发的自动钢琴伴奏生成算法。该算法通过微调一个先进的自动音乐转录(AMT)模型来提高钢琴伴奏...
FunASR:阿里巴巴达摩院开源的语音识别工具包
FunASR简介 FunASR是由阿里巴巴达摩院开源的语音识别工具包,它致力于连接学术研究与工业应用。这个工具包不仅提供了语音识别(ASR)、语音活动检测(VAD)、...
Podcastfy:将多种文本内容转换为生动的音频对话
Podcastfy简介 Podcastfy 是一个开源 Python 包,旨在将多种文本内容(如网页和 PDF 文件)转换为生动的音频对话。它利用先进的生成式人工智能技术,支持多语...
CapsWriter-Offline:一个 PC 端的语音输入、字幕转录工具
CapsWriter-Offline简介 CapsWriter-Offline是一款离线语音输入和转录工具,专为PC用户设计。它允许用户在没有互联网连接的情况下进行长时间的语音录入和实时...
Open NotebookLM :将 PDF 文件转化为播客的开源工具
Open NotebookLM 简介 Open NotebookLM 是一个创新的开源工具,能够将 PDF 文档转换成个性化的音频播客。它利用了 Llama 3.1 和 meloTTS 等先进的开源人工智...
PDF2Audio:将 PDF 文件转换成音频播客、讲座、摘要等
PDF2Audio简介 PDF2Audio是一款创新的开源工具,它利用人工智能技术将PDF文档转换成音频格式,如播客、讲座或摘要,让用户能够以听的方式享受阅读。通过OpenA...
LLaMA-Omni:中国科学院推出的低延迟语音交互模型
LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构,旨在实现与大型语言模型(LLMs)的无缝语音...
EzAudio:将文本描述转换为相应逼真的音频内容
EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略,在保持模型...