AnchorCrafter:专门设计用于生成高保真度的主播风格产品推广视频
AnchorCrafter简介
AnchorCrafter是由中国科学院计算技术研究所、美团、大湾大学和腾讯的联合研究团队开发的一款创新系统,它基于扩散模型,专门设计用于生成高保真度的主播风格产品推广视频。该系统通过整合人-物交互(HOI)能力,能够实现对目标人物和定制对象的逼真动画制作,同时保持高度的视觉保真度和可控的交互性。AnchorCrafter在自动生成电商推广内容方面展现出巨大的潜力,能够显著提升在线购物体验。

AnchorCrafter主要功能
- 高保真视频生成:能够生成逼真的2D视频,展示目标人物与定制对象的互动,适用于产品推广视频的自动化制作。
- 人-物交互集成:将人-物交互(HOI)能力整合到姿势引导的人物视频生成中,实现复杂的人物与对象之间的交互动作。
- 外观保持与运动控制:在视频生成过程中保持对象的外观和形状,同时控制人物的姿势和动作。
- 多视角特征融合:利用多视角对象参考图像来提高对象外观识别的准确性,并解耦人物与对象的外观。
- 交互引导:通过精确控制对象轨迹和处理遮挡问题,实现复杂的人-物交互。
- 区域重加权损失:在训练过程中增强模型对交互区域的关注,以改善对象细节的学习。
AnchorCrafter技术原理
- 视频扩散模型架构:基于扩散UNet和变分自编码器(VAE),用于压缩和解压视频帧。
- HOI-外观感知:
- 多视角对象特征融合:使用预训练的DINOv2large模型处理多视角对象参考图像,提取3D一致性特征。
- 人-物双适配器:通过替换UNet中的交叉注意力层,实现人物与对象特征的更好解耦。
- HOI-运动注入:
- 对象轨迹控制:使用深度图D作为对象轨迹的输入,通过轻量级卷积网络处理。
- 遮挡处理:使用3D手部网格序列H来处理手部与对象交互时的遮挡问题。
- HOI区域重加权损失:在训练目标中增加对交互区域的权重,以增强对象细节的学习。
- 条件信号注入:在视频生成过程中,通过条件信号注入人物骨骼运动序列、3D手部网格和深度图,实现对人物动作的精确控制。
- 训练与推理:在训练阶段,系统从一系列人物与特定产品的交互视频中学习目标对象和交互分布;在推理阶段,使用演员执行的HOI动作来驱动任意未见人物图像的视频生成。
AnchorCrafter应用场景
- 在线购物平台:自动生成产品推广视频,提升用户在线购物体验,增加产品吸引力。
- 社交媒体营销:为品牌和个人创作者提供工具,制作吸引人的产品展示视频,增强社交媒体互动。
- 直播带货:辅助主播在直播中展示产品,通过自动化视频生成提高直播效率和观众参与度。
- 广告制作:快速制作高质量的广告视频,节省传统视频拍摄的成本和时间。
- 虚拟试穿/试用:在时尚和美妆行业,提供虚拟试穿或试用产品的视频,增加用户购买意愿。
- 教育和培训:创建教学视频,展示产品使用方法或操作流程,提高学习效率和理解度。
AnchorCrafter项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...