2.应用工具相关

MM-Eureka:上海交通大学等推出的多模态推理模型

MM-Eureka简介 MM-Eureka是由上海人工智能实验室、上海创新研究院、上海交通大学和香港大学联合开发的多模态推理模型。该模型通过大规模基于规则的强化学习(...

AudioX:香港科技大学联合月之暗面推出的多模态音频生成框架

AudioX简介 AudioX 是由香港科技大学和月之暗面联合开发的多模态音频生成框架,旨在通过统一的模型架构实现从文本、视频、图像等多种输入模态生成高质量的音...

Thera:实现了在任意分辨率下的高质量图像重建

Thera简介 Thera是由苏黎世联邦理工学院(ETH Zurich)和苏黎世大学(University of Zurich)联合开发的一种新型任意尺度超分辨率(ASR)技术。它通过神经热...

AgenticSeek:开源的AI助手 提供类似于Manus AI的功能

AgenticSeek 简介 AgenticSeek 是一个开源的本地化AI助手,旨在提供类似于Manus AI的功能,同时完全运行在本地硬件上,无需依赖云端服务。它具备语音交互、文...

Open-LLM-VTuber:开源数字人 支持实时语音对话和视觉感知

Open-LLM-VTuber 简介 Open-LLM-VTuber 是一个开源的 AI 数字人项目,支持实时语音对话和视觉感知。它结合了大语言模型(LLM)、语音识别(ASR)和语音合成(...

LBM:在单步推理中完成从源图像到目标图像的翻译任务

LBM简介 Latent Bridge Matching (LBM) 是由 Jasper Research 团队提出的一种新型图像到图像翻译方法。该方法基于桥匹配技术,在潜在空间中实现高效的图像翻...

Gemini Robotics:实现机器人对复杂环境的通用感知与交互

Gemini Robotics简介 Gemini Robotics 是由 Google DeepMind 团队开发的先进机器人控制平台,旨在将多模态人工智能的强大能力引入物理世界。它基于 Gemini 2....

BEHAVIOR Robot Suite:李飞飞团队推出的综合性机器人框架

BEHAVIOR Robot Suite简介 BEHAVIOR Robot Suite(BRS)是由斯坦福大学李飞飞团队开发的一个综合性机器人框架,旨在实现家庭环境中全身操作任务的高效执行。...

Motion Anything:悉尼大学等推出的多模态运动生成框架

Motion Anything简介 Motion Anything是由澳大利亚国立大学(ANU)、悉尼大学(USYD)、腾讯、麦吉尔大学(McGill)、京东(JD.com)、悉尼科技大学(UTS)、...

PE3R:新加坡国立大学推出的高效3D重建框架

PE3R简介 PE3R(Perception-Efficient 3D Reconstruction)是由新加坡国立大学1xML实验室开发的一种高效3D重建框架,旨在通过2D图像实现快速且准确的3D场景语...
1 14 15 16 17 18 85