2.应用工具相关
MVPaint:腾讯PCG等推出的创新3D纹理生成框架
MVPaint简介 MVPaint是由腾讯PCG、上海人工智能实验室和南洋理工大学S-Lab联合开发的创新3D纹理生成框架。该框架能够根据文本提示生成具有高分辨率和多视图一...
EchoMimicV2:能够生成与音频内容高度一致的高质量动画视频
EchoMimicV2简介 EchoMimicV2是由阿里蚂蚁集团推出的一种创新的半身人体动画生成技术。该技术通过结合参考图像、音频剪辑和手部姿势序列,能够生成与音频内容...
SAMURAI:能够在视频序列中实时跟踪目标对象
SAMURAI简介 SAMURAI是一种基于Segment Anything Model 2(SAM 2)的增强型视觉目标跟踪框架,专门设计用于处理快速移动或自遮挡目标的挑战。它通过整合时序...
LLaMA-Mesh:英伟达联合清华将语言模型应用于3D网格生成
LLaMA-Mesh简介 LLaMA-Mesh是由清华大学与NVIDIA的研究人员共同开发的一种创新方法,它通过将3D网格的顶点坐标和面定义表示为纯文本,使得大型语言模型(LLMs...
DanceFusion:清华大学推出的舞蹈动作生成框架
DanceFusion简介 DanceFusion是由清华大学的研究团队开发的一种创新框架,旨在通过时空骨架扩散变换器重建和生成与音乐同步的舞蹈动作。该框架特别针对社交媒...
AgileGen:天津大学推出的人机协作生成式软件开发框架
AgileGen简介 AgileGen是由天津大学智能与计算学院的研究团队开发的一种基于敏捷方法论的人机协作生成式软件开发框架。该框架通过引入Gherkin语言,将用户需...
LLaVA-o1:清华&北大等联合推出的一种新型视觉语言模型
LLaVA-o1简介 LLaVA-o1是由北京大学电子与计算机工程学院、清华大学跨学科信息科学研究所、鹏城实验室以及AI for Science (AI4S)-Preferred Program联合开发...
AnimateAnything:能够实现对视频内容的精确和一致性操控
AnimateAnything简介 AnimateAnything是由浙江大学CAD&CG国家重点实验室、清华大学、北京航空航天大学和浙江工商大学联合开发的先进视频生成技术。这项技...
RAG-Diffusion:南京大学推出的区域感知文本到图像生成技术
RAG-Diffusion简介 RAG-Diffusion是由南京大学的研究团队开发的一种先进的文本到图像生成方法,它通过区域感知的硬绑定和软细化技术,实现了对图像中各个区域...
FitDiT:够生成穿着特定服装的逼真图像 提升消费者的购物体验
FitDiT简介 FitDiT是由腾讯公司与复旦大学合作开发的一项先进技术,旨在通过Diffusion Transformers(DiT)提升虚拟试穿的真实感和细节保真度。该技术通过专...