2-5.应用工具其他
SpatialLM:群核科技开源的用于空间理解的三维大型语言模型
SpatialLM简介 SpatialLM是由群核科技开源的一个用于空间理解的三维大型语言模型。它能够处理来自单目视频、RGBD图像和激光雷达传感器等多种来源的三维点云数...
Multi-Agent Orchestrator:亚马逊推出的灵活、轻量级的开源框架
Multi-Agent Orchestrator简介 Multi-Agent Orchestrator是由亚马逊开发的一个灵活、轻量级的开源框架,用于协调多个AI代理以处理复杂对话。它能够智能地根据...
RF-DETR:Roboflow推出的实时目标检测模型
RF-DETR简介 RF-DETR是由Roboflow推出的实时目标检测模型。它在COCO数据集上首次实现了60+的平均精度均值(mAP),在实时目标检测领域取得了突破性进展。该模...
Agent TARS:字节跳动开源的多模态 AI 代理工具
Agent TARS简介 Agent TARS 是由字节跳动(ByteDance)开发的一款开源多模态 AI 代理工具。它通过视觉解析网页,能够无缝集成到命令行和文件系统中,实现复杂...
Umi-OCR:一款开源、免费的离线OCR软件
Umi-OCR简介 Umi-OCR是一款开源、免费的离线OCR软件,适用于Windows 7 x64和Linux x64系统。它无需网络连接,解压即可使用,支持截图OCR、批量图片识别、PDF...
Maestro:专为移动和Web应用设计的端到端自动化测试框架
Maestro简介 Maestro是一个专为移动和Web应用设计的端到端自动化测试框架。它通过内置的容错机制和自动等待延迟功能,解决了传统测试框架中常见的不稳定性问...
LVAS-Agent:能够为长视频生成高质量的同步音频
LVAS-Agent 简介 LVAS-Agent 是由香港科技大学(广州)和香港科技大学的研究团队开发的一种多智能体协作框架,专门用于长视频音频合成。该框架通过模拟专业配...
UniFluid:实现高质量的图像生成和强大的视觉理解能力
UniFluid简介 UniFluid 是由 Google DeepMind 和 MIT 的联合开发团队提出的一种创新的统一自回归框架,旨在结合视觉生成和理解任务。该模型通过处理多模态图...
ReasonGraph:可视化和分析大型语言模型的推理过程
ReasonGraph简介 ReasonGraph是由剑桥大学和莫纳什大学的研究团队共同开发的一个基于网络的平台,旨在可视化和分析大型语言模型(LLMs)的推理过程。该平台支...
GR00T N1:英伟达开源的人形机器人基础模型
GR00T N1简介 GR00T N1 是由 NVIDIA 开发团队推出的一款面向人形机器人的开源基础模型。该团队致力于开发能够理解人类世界、遵循语言指令并执行多样化任务的...