2.应用工具相关 | 第 14 页

Agent TARS：字节跳动开源的多模态 AI 代理工具

Agent TARS简介 Agent TARS 是由字节跳动（ByteDance）开发的一款开源多模态 AI 代理工具。它通过视觉解析网页，能够无缝集成到命令行和文件系统中，实现复杂...

2-5.应用工具其他

3个月前

LHM简介 LHM（Large Animatable Human Reconstruction Model）是由阿里巴巴集团通义实验室开发的一种新型3D人类重建模型。该模型能够在几秒钟内从单张图像中...

2-6.应用工具3D

3个月前

Orpheus-TTS简介 Orpheus-TTS是由Canopy AI团队开发的开源文本到语音（TTS）系统，基于Llama-3b模型构建。它展现了使用大型语言模型（LLM）进行语音合成的新...

2-4.应用工具音频

3个月前

Umi-OCR简介 Umi-OCR是一款开源、免费的离线OCR软件，适用于Windows 7 x64和Linux x64系统。它无需网络连接，解压即可使用，支持截图OCR、批量图片识别、PDF...

2-5.应用工具其他

3个月前

CrackCode简介 CrackCode 是一个开源的 AI 助手，专为技术面试中的编程问题设计。它能在后台运行，完全隐形，不会被屏幕录制或监控软件检测到。该工具支持多...

2-7应用工具编程

3个月前

YT Navigator 简介 YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具。它能够帮助用户高效地搜索和浏览 YouTube 频道中的视频内容，通过自然语言查询快速...

2-3.应用工具视频

3个月前

Maestro简介 Maestro是一个专为移动和Web应用设计的端到端自动化测试框架。它通过内置的容错机制和自动等待延迟功能，解决了传统测试框架中常见的不稳定性问...

2-5.应用工具其他

4个月前

LVAS-Agent 简介 LVAS-Agent 是由香港科技大学（广州）和香港科技大学的研究团队开发的一种多智能体协作框架，专门用于长视频音频合成。该框架通过模拟专业配...

2-5.应用工具其他

4个月前

UniFluid简介 UniFluid 是由 Google DeepMind 和 MIT 的联合开发团队提出的一种创新的统一自回归框架，旨在结合视觉生成和理解任务。该模型通过处理多模态图...

2-5.应用工具其他

4个月前

Multi-Speaker简介 Multi-Speaker 是由 AudioShake 团队开发的全球首个高分辨率多说话人声分离模型。该模型能够将音频中的多个说话人精准分离到不同轨道，支...

2-4.应用工具音频

4个月前