2.应用工具相关
Agent TARS:字节跳动开源的多模态 AI 代理工具
Agent TARS简介 Agent TARS 是由字节跳动(ByteDance)开发的一款开源多模态 AI 代理工具。它通过视觉解析网页,能够无缝集成到命令行和文件系统中,实现复杂...
LHM:阿里通义推出的新型3D人类重建模型
LHM简介 LHM(Large Animatable Human Reconstruction Model)是由阿里巴巴集团通义实验室开发的一种新型3D人类重建模型。该模型能够在几秒钟内从单张图像中...
Orpheus-TTS:无需预先微调即可克隆任意声音
Orpheus-TTS简介 Orpheus-TTS是由Canopy AI团队开发的开源文本到语音(TTS)系统,基于Llama-3b模型构建。它展现了使用大型语言模型(LLM)进行语音合成的新...
Umi-OCR:一款开源、免费的离线OCR软件
Umi-OCR简介 Umi-OCR是一款开源、免费的离线OCR软件,适用于Windows 7 x64和Linux x64系统。它无需网络连接,解压即可使用,支持截图OCR、批量图片识别、PDF...
CrackCode:专为技术面试中的编程问题设计
CrackCode简介 CrackCode 是一个开源的 AI 助手,专为技术面试中的编程问题设计。它能在后台运行,完全隐形,不会被屏幕录制或监控软件检测到。该工具支持多...
YT Navigator:AI 驱动的 YouTube 内容搜索工具
YT Navigator 简介 YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具。它能够帮助用户高效地搜索和浏览 YouTube 频道中的视频内容,通过自然语言查询快速...
Maestro:专为移动和Web应用设计的端到端自动化测试框架
Maestro简介 Maestro是一个专为移动和Web应用设计的端到端自动化测试框架。它通过内置的容错机制和自动等待延迟功能,解决了传统测试框架中常见的不稳定性问...
LVAS-Agent:能够为长视频生成高质量的同步音频
LVAS-Agent 简介 LVAS-Agent 是由香港科技大学(广州)和香港科技大学的研究团队开发的一种多智能体协作框架,专门用于长视频音频合成。该框架通过模拟专业配...
UniFluid:实现高质量的图像生成和强大的视觉理解能力
UniFluid简介 UniFluid 是由 Google DeepMind 和 MIT 的联合开发团队提出的一种创新的统一自回归框架,旨在结合视觉生成和理解任务。该模型通过处理多模态图...
Multi-Speaker:全球首个高分辨率多说话人声分离模型
Multi-Speaker简介 Multi-Speaker 是由 AudioShake 团队开发的全球首个高分辨率多说话人声分离模型。该模型能够将音频中的多个说话人精准分离到不同轨道,支...