AI开源项目
DepthLab:专门设计用于从单一图像中生成完整的3D场景
DepthLab简介 DepthLab是由香港大学、香港科技大学、蚂蚁集团、阿尔托大学和同一实验室联合开发的一款先进的深度修复模型。该模型专门设计用于从单一图像中生...
DRT-o1:微信AI团队推出的长链条思考神经机器翻译模型
DRT-o1简介 DRT-o1是由微信人工智能团队开发的神经机器翻译模型,旨在通过长链条思考(CoT)来提升翻译质量,特别是在处理包含比喻和隐喻的文学作品时。该模...
IDOL:从单张图片快速创建高分辨率的3D人物模型
IDOL简介 IDOL是一个创新的前馈单图像人物重建框架,能够快速、高保真地从单张图片中创建出逼真的3D全身人物化身。它利用一个大规模的多视图数据集HuGe100K,...
VSI-Bench:李飞飞等推出的视觉空间智能测试基准
VSI-Bench简介 VSI-Bench是由李飞飞、纽约大学、耶鲁大学和斯坦福大学的研究团队共同开发的一项新颖的视频基础视觉空间智能基准测试。该基准测试包含超过5000...
HelloMeme:专注于生成具有高度细节和真实感的表情包视频
HelloMeme简介 HelloMeme是一种文本到图像扩散模型,专注于生成具有高度细节和真实感的表情包视频。它通过优化2D特征图相关的注意力机制,提升了模型在处理夸...
InvSR:从低分辨率图像恢复出高分辨率图像
InvSR简介 InvSR是一种创新的图像超分辨率技术,由南洋理工大学S-Lab的团队开发。这项技术基于扩散反转原理,通过预测最优噪声图来初始化采样过程,从而利用...
CLEAR:提高预训练扩散变换器在超分辨率图像生成中的效率
CLEAR简介 CLEAR是一种线性注意力机制,由新加坡国立大学的研究团队开发,旨在提高预训练扩散变换器(DiTs)在高分辨率图像生成任务中的效率。通过引入局部性...
LeviTor:3D轨迹导向图像到视频合成技术
LeviTor简介 LeviTor是一种创新的3D轨迹导向图像到视频合成方法,它通过将对象掩码抽象成聚类点并结合深度信息,实现了在3D空间中对物体运动的精确控制。用户...
CrossFlow:能够直接将一种模态(如文本)演化成另一种模态(如图像)
CrossFlow简介 CrossFlow是一个创新的跨模态演变框架,它能够直接将一种模态(如文本)演化成另一种模态(如图像),而无需依赖噪声分布或条件机制。利用流匹...
ChatDiT:阿里通义推出的零样本图像生成框架
ChatDiT简介 ChatDiT是由阿里通义推出的一种基于预训练扩散变换器的零样本、通用型、交互式视觉生成框架。它无需额外训练或结构修改,能够通过自然语言指令与...