2-4.应用工具音频
AMT-APC:自动将原始音频轨道转换成钢琴伴奏的MIDI格式
AMT-APC简介 AMT-APC是由Musashino University的数据科学学院开发的自动钢琴伴奏生成算法。该算法通过微调一个先进的自动音乐转录(AMT)模型来提高钢琴伴奏...
FunASR:阿里巴巴达摩院开源的语音识别工具包
FunASR简介 FunASR是由阿里巴巴达摩院开源的语音识别工具包,它致力于连接学术研究与工业应用。这个工具包不仅提供了语音识别(ASR)、语音活动检测(VAD)、...
Podcastfy:将多种文本内容转换为生动的音频对话
Podcastfy简介 Podcastfy 是一个开源 Python 包,旨在将多种文本内容(如网页和 PDF 文件)转换为生动的音频对话。它利用先进的生成式人工智能技术,支持多语...
CapsWriter-Offline:一个 PC 端的语音输入、字幕转录工具
CapsWriter-Offline简介 CapsWriter-Offline是一款离线语音输入和转录工具,专为PC用户设计。它允许用户在没有互联网连接的情况下进行长时间的语音录入和实时...
Open NotebookLM :将 PDF 文件转化为播客的开源工具
Open NotebookLM 简介 Open NotebookLM 是一个创新的开源工具,能够将 PDF 文档转换成个性化的音频播客。它利用了 Llama 3.1 和 meloTTS 等先进的开源人工智...
PDF2Audio:将 PDF 文件转换成音频播客、讲座、摘要等
PDF2Audio简介 PDF2Audio是一款创新的开源工具,它利用人工智能技术将PDF文档转换成音频格式,如播客、讲座或摘要,让用户能够以听的方式享受阅读。通过OpenA...
LLaMA-Omni:中国科学院推出的低延迟语音交互模型
LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构,旨在实现与大型语言模型(LLMs)的无缝语音...
EzAudio:将文本描述转换为相应逼真的音频内容
EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略,在保持模型...
Faster Whisper:基于 OpenAI Whisper 模型的高效语音识别工具
Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具,它通过采用 CTranslate2 引擎实现快速推理,显著提升了语音转写的效...
Seed-Music :字节豆包团队推出的一款音乐生成模型
Seed-Music简介 Seed-Music 是由字节跳动公司的豆包团队推出的一款音乐生成模型。它通过结合自回归语言模型和扩散模型,能够根据用户的多样化输入生成高质量...