2-5.应用工具其他
DoraCycle:新加坡国立大学推出的多模态领域适应框架
DoraCycle简介 DoraCycle是由新加坡国立大学Show Lab团队开发的一种创新的多模态领域适应框架,旨在将统一生成模型高效地适应特定领域。该框架通过设计文本到...
AppAgentX:西湖大学等推出的进化式图形用户界面代理框架
AppAgentX简介 AppAgentX是由西湖大学和河南大学联合开发团队提出的一种新型进化式图形用户界面(GUI)代理框架。该框架旨在通过记忆机制和进化机制提升代理...
DINO-XSeek:能够精准定位图像中符合复杂语言描述的目标
DINO-XSeek简介 DINO-XSeek 是由 IDEA 研究院开发的一款创新性多模态目标检测模型。它通过融合视觉感知与自然语言理解能力,能够精准定位图像中符合复杂语言...
OpenManus:MetaGPT推出的Manus开源复刻版
OpenManus简介 OpenManus是由MetaGPT团队推出的一款Manus开源复刻版。它基于模块化设计,具备强大的工具链集成能力,支持多语言模型和无需邀请码即可使用的便...
SpatialVLA:新型空间增强视觉-语言-动作模型
SpatialVLA简介 SpatialVLA是由上海人工智能实验室、上海科技大学和TeleAI联合开发的一种新型视觉-语言-行动(VLA)模型。该模型通过引入Ego3D位置编码和自适...
Resume Matcher:帮助求职者优化简历的开源免费工具
Resume Matcher简介 Resume Matcher 是由开发团队 srbhr 打造的一款帮助求职者优化简历的开源免费工具。它通过 AI 技术和自然语言处理算法,将简历与职位描述...
Light-R1:360智脑开源的专注于数学领域的语言模型
Light-R1简介 Light-R1 是由 360智脑开源的一款专注于数学领域的语言模型。该模型通过课程式微调(Curriculum SFT)和基于偏好优化(DPO)的方法,从无长链推...
AVD2:增强自动驾驶系统对复杂交通事故场景的理解能力
AVD2简介 AVD2(Accident Video Diffusion for Accident Video Description)是由清华大学人工智能产业研究院(AIR)联合香港科技大学、吉林大学、南京理工大...
TheoremExplainAgent:将复杂的定理和概念转化为易于理解的视频内容
TheoremExplainAgent简介 TheoremExplainAgent是由加拿大滑铁卢大学、Votee AI以及Vector Institute联合开发的多模态定理解释系统。该系统通过结合文本和视觉...
ViDoRAG:专门用于处理视觉丰富文档中的复杂推理任务
ViDoRAG简介 ViDoRAG(Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents)是一种新型的检索增强生成框架,专门用于...