AI开源项目
SuperEdit:字节等推出的新型图像编辑方法
SuperEdit项目简介 SuperEdit是由字节跳动智能创作团队(ByteDance Intelligent Creation)和佛罗里达中央大学计算机视觉研究中心(Center for Research in C...
Insert Anything:浙大联合哈佛大学等推出的图像插入框架
Insert Anything项目简介 “Insert Anything”是由浙江大学、哈佛大学和南洋理工大学联合开发的创新图像插入框架。该框架能够将参考图像中的对象无缝集成到目标...
D-DiT:字节联合耶鲁大学等推出的多模态扩散模型
D-DiT项目简介 D-DiT(Dual Diffusion Transformer)是由卡内基梅隆大学、耶鲁大学和字节跳动联合开发的一种新型多模态扩散模型。它通过创新的双分支架构,将...
ICEdit:浙大联合哈佛大学推出的新型指令式图像编辑方法
ICEdit项目简介 ICEdit是由浙江大学与哈佛大学共同开发的一种新型指令式图像编辑方法。该方法基于大规模扩散变换器(Diffusion Transformer),通过上下文生...
LaRI:从单张图像中推理三维几何结构的新方法
LaRI项目简介 LaRI(Layered Ray Intersections)是由KAUST(阿卜杜拉国王科技大学)、Google和慕尼黑工业大学联合开发的一种从单张图像中推理三维几何结构的...
T2I-R1:香港中文大学等推出的文本到图像生成模型
T2I-R1项目简介 T2I-R1是由中国香港中文大学(深圳)多媒体实验室(MMLab)和上海人工智能实验室联合开发的一种新型推理增强型文本到图像生成模型。该模型通...
ReasonIR-8B:Meta AI研究团队开发的新型检索器
ReasonIR-8B项目简介 ReasonIR-8B是由 Meta AI研究团队开发的一种新型检索器。它是首个专门针对推理密集型任务训练的检索器,通过结合公共数据和合成数据进行...
UniTok:香港大学联合字节推出的统一视觉分词器
UniTok项目简介 UniTok是由香港大学、字节跳动公司和华中科技大学联合开发的一种创新的统一视觉分词器。它旨在弥合视觉生成与理解之间的差距,为多模态大语言...
TesserAct:哈佛大学等推出的4D体现世界模型
TesserAct项目简介 TesserAct 是由 UMass Amherst、HKUST 和 Harvard University 的研究团队共同开发的一种创新的 4D 体现世界模型。该模型通过输入图像和文...
Embodied Reasoner:浙大联合阿里等机构推出的具身化交互模型
Embodied Reasoner项目简介 Embodied Reasoner是由浙江大学计算机科学与技术学院、中国科学院软件研究所、阿里巴巴集团和达摩院等机构联合开发的具身化交互模...