2-4.应用工具音频 | 第 5 页

Moonshine：专为实时语音转录和命令处理而优化的语音识别模型

Moonshine简介 Moonshine是一套专为实时语音转录和命令处理而优化的语音识别模型。基于编码器-解码器变换器架构，并采用旋转位置嵌入(RoPE)技术，它在不使用...

2-4.应用工具音频

9个月前

AMT-APC简介 AMT-APC是由Musashino University的数据科学学院开发的自动钢琴伴奏生成算法。该算法通过微调一个先进的自动音乐转录（AMT）模型来提高钢琴伴奏...

2-4.应用工具音频

9个月前

FunASR简介 FunASR是由阿里巴巴达摩院开源的语音识别工具包，它致力于连接学术研究与工业应用。这个工具包不仅提供了语音识别（ASR）、语音活动检测（VAD）、...

2-4.应用工具音频

9个月前

Podcastfy简介 Podcastfy 是一个开源 Python 包，旨在将多种文本内容（如网页和 PDF 文件）转换为生动的音频对话。它利用先进的生成式人工智能技术，支持多语...

2-4.应用工具音频

9个月前

CapsWriter-Offline简介 CapsWriter-Offline是一款离线语音输入和转录工具，专为PC用户设计。它允许用户在没有互联网连接的情况下进行长时间的语音录入和实时...

2-4.应用工具音频

9个月前

Open NotebookLM 简介 Open NotebookLM 是一个创新的开源工具，能够将 PDF 文档转换成个性化的音频播客。它利用了 Llama 3.1 和 meloTTS 等先进的开源人工智...

2-4.应用工具音频

10个月前

PDF2Audio简介 PDF2Audio是一款创新的开源工具，它利用人工智能技术将PDF文档转换成音频格式，如播客、讲座或摘要，让用户能够以听的方式享受阅读。通过OpenA...

2-4.应用工具音频

10个月前

LLaMA-Omni 简介 LLaMA-Omni是由中国科学院计算技术研究所智能信息处理重点实验室的团队开发的一种新型模型架构，旨在实现与大型语言模型（LLMs）的无缝语音...

2-4.应用工具音频

10个月前

EzAudio简介 EzAudio 是由腾讯联合约翰霍普金斯大学开发的一种创新的文本到音频生成框架。该框架通过采用高效的扩散变压器架构和优化的训练策略，在保持模型...

2-4.应用工具音频

10个月前

Faster Whisper简介 Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具，它通过采用 CTranslate2 引擎实现快速推理，显著提升了语音转写的效...

2-4.应用工具音频

10个月前