2-5.应用工具其他

Skywork R1V:昆仑万维开源的多模态推理模型

Skywork R1V简介 Skywork R1V是由昆仑万维开源的多模态推理模型,它通过高效的多模态转移技术,将R1系列大型语言模型的推理能力扩展到视觉模态。该模型利用轻...

SmolDocling:专为端到端多模态文档转换而设计

SmolDocling简介 SmolDocling是由IBM Research和HuggingFace联合开发的超紧凑型视觉-语言模型,专为端到端多模态文档转换而设计。该模型通过生成DocTags标记...

AMIS:百度团队开发的前端低代码框架

AMIS 简介 AMIS 是由百度团队开发的前端低代码框架,旨在通过简洁的 JSON 配置快速生成各种后台页面。它极大地降低了开发成本,即使开发者对前端技术不熟悉,...

MM-Eureka:上海交通大学等推出的多模态推理模型

MM-Eureka简介 MM-Eureka是由上海人工智能实验室、上海创新研究院、上海交通大学和香港大学联合开发的多模态推理模型。该模型通过大规模基于规则的强化学习(...

AgenticSeek:开源的AI助手 提供类似于Manus AI的功能

AgenticSeek 简介 AgenticSeek 是一个开源的本地化AI助手,旨在提供类似于Manus AI的功能,同时完全运行在本地硬件上,无需依赖云端服务。它具备语音交互、文...

Gemini Robotics:实现机器人对复杂环境的通用感知与交互

Gemini Robotics简介 Gemini Robotics 是由 Google DeepMind 团队开发的先进机器人控制平台,旨在将多模态人工智能的强大能力引入物理世界。它基于 Gemini 2....

BEHAVIOR Robot Suite:李飞飞团队推出的综合性机器人框架

BEHAVIOR Robot Suite简介 BEHAVIOR Robot Suite(BRS)是由斯坦福大学李飞飞团队开发的一个综合性机器人框架,旨在实现家庭环境中全身操作任务的高效执行。...

Motion Anything:悉尼大学等推出的多模态运动生成框架

Motion Anything简介 Motion Anything是由澳大利亚国立大学(ANU)、悉尼大学(USYD)、腾讯、麦吉尔大学(McGill)、京东(JD.com)、悉尼科技大学(UTS)、...

MM-StoryAgent:融合多种模态生成沉浸式的有声故事书视频

MM-StoryAgent简介 MM-StoryAgent是由X-PLUG团队开发的多智能体框架,旨在通过融合文本、图像、音频等多种模态生成沉浸式的有声故事书视频。该框架利用大语言...

Nanobrowser:通过多智能体系统实现复杂的网页任务

Nanobrowser简介 Nanobrowser 是一款开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。它通过多智能体系统实现复杂的网页任务,用户可以利用自己的 LLM ...
1 2 3 4 5 25