AI开源项目

VSI-Bench:李飞飞等推出的视觉空间智能测试基准

VSI-Bench简介 VSI-Bench是由李飞飞、纽约大学、耶鲁大学和斯坦福大学的研究团队共同开发的一项新颖的视频基础视觉空间智能基准测试。该基准测试包含超过5000...

HelloMeme:专注于生成具有高度细节和真实感的表情包视频

HelloMeme简介 HelloMeme是一种文本到图像扩散模型,专注于生成具有高度细节和真实感的表情包视频。它通过优化2D特征图相关的注意力机制,提升了模型在处理夸...

InvSR:从低分辨率图像恢复出高分辨率图像

InvSR简介 InvSR是一种创新的图像超分辨率技术,由南洋理工大学S-Lab的团队开发。这项技术基于扩散反转原理,通过预测最优噪声图来初始化采样过程,从而利用...

CLEAR:提高预训练扩散变换器在超分辨率图像生成中的效率

CLEAR简介 CLEAR是一种线性注意力机制,由新加坡国立大学的研究团队开发,旨在提高预训练扩散变换器(DiTs)在高分辨率图像生成任务中的效率。通过引入局部性...

LeviTor:3D轨迹导向图像到视频合成技术

LeviTor简介 LeviTor是一种创新的3D轨迹导向图像到视频合成方法,它通过将对象掩码抽象成聚类点并结合深度信息,实现了在3D空间中对物体运动的精确控制。用户...

CrossFlow:能够直接将一种模态(如文本)演化成另一种模态(如图像)

CrossFlow简介 CrossFlow是一个创新的跨模态演变框架,它能够直接将一种模态(如文本)演化成另一种模态(如图像),而无需依赖噪声分布或条件机制。利用流匹...

ChatDiT:阿里通义推出的零样本图像生成框架

ChatDiT简介 ChatDiT是由阿里通义推出的一种基于预训练扩散变换器的零样本、通用型、交互式视觉生成框架。它无需额外训练或结构修改,能够通过自然语言指令与...

Genesis:卡内基梅隆大学联合多所机构推出的开源生成式物理引擎

Genesis简介 Genesis是由卡内基梅隆大学(CMU)与20多所研究机构联合开发的开源生成式物理引擎,旨在推动机器人技术和物理模拟的进步。该引擎以其超高性能著...

Genex:允许智能体在心理上探索3D环境

Genex简介 Genex是由约翰霍普金斯大学的研究团队开发的一种创新框架,它允许智能体在无需物理移动的情况下,通过心理上探索大规模3D环境并更新其对世界状态的...

EMMA-X:新加坡科技设计大学推出的多模态动作模型

EMMA-X简介 EMMA-X是由新加坡科技设计大学的研究团队开发的一个多模态动作模型,它通过结合具体化的思考链和前瞻性空间推理,显著提升了机器人在复杂任务中的...
1 3 4 5 6 7 44