Perception-as-Control:阿里通义实验室推出的图像动画框架
Perception-as-Control简介
Perception-as-Control是由阿里巴巴通义实验室开发的一个图像动画框架,旨在实现基于用户意图的细粒度可控的图像动画。该框架通过构建具有3D感知的运动表示,并利用感知结果作为运动控制信号,支持多种与运动相关的视频合成任务,如运动生成、运动克隆、运动转移和运动编辑等。它通过简化和总结参考图像对应的3D场景来构建运动表示,包括几个表示关键物体部分的单位球体和一个容纳它们的世界包络。Perception-as-Control框架基于U-Net架构,包含额外的运动模块用于建模时间信息,并采用三阶段训练策略来平衡相机和物体运动控制,实现细粒度的协同运动控制。

Perception-as-Control主要功能
-
细粒度协同运动控制:能够同时对相机和物体的运动进行精确且细致的控制,实现它们之间的协同运动。比如在生成视频时,可以既控制相机的移动轨迹,又精确操控场景中多个物体的运动细节,如让物体按照特定的轨迹移动、改变物体的运动速度等,且两者运动协调一致。
-
多种运动相关视频合成任务支持:可应用于多种与运动相关的视频合成场景,包括基于图像的运动生成(根据用户输入的运动意图来动画化图像)、基于视频的运动克隆(模仿源视频中的全部运动)、运动转移(根据语义对应关系,将源视频中的局部运动重新定位和缩放到参考图像上)以及运动编辑(在用户指定区域内编辑任意运动)等,具有很强的通用性和灵活性。
-
直观一致的视觉效果呈现:将相机和物体运动转化为直观、一致的视觉变化,使生成的视频在视觉上更加自然、连贯。例如,通过构建的世界包络来展示相机运动的方向和幅度,增强整体感知,使视频的空间结构稳定且一致;同时还能准确反映不同焦距下的透视效果,提升视频的真实感。
Perception-as-Control技术原理
-
3D感知运动表示构建:
-
关键物体部分简化:将3D场景中的关键物体部分(包括大部分运动部分和少数静态部分)简化为单位球体,这些球体在3D场景中代表物体的关键部位,其数量可以根据控制的精细程度灵活定义。
-
世界包络设定:构建一个类似《楚门的世界》中巨大场景的世界包络来容纳这些单位球体,通过观察者视角的变化来展示场景的演变。世界包络作为场景的标记,只需粗略的相机姿态信息即可,不依赖极其精确的相机参数。
-
运动捕捉与渲染:利用3D点跟踪技术捕捉局部物体运动,获取关键物体部分在每一时刻的3D位置;通过视觉里程计技术捕捉全局相机运动,恢复相机轨迹。然后根据相机姿态和3D点位置,将单位球体和世界包络渲染为运动控制信号,其中单位球体根据深度信息在像素平面上呈现为大小不一的彩色圆圈,世界包络则采用带有纹理的立方体来增强可识别性,两者分别作为物体和相机的控制信号。
-
-
网络架构设计:
-
基于U-Net的动画框架:整体框架基于去噪U-Net架构,并添加了额外的运动模块来建模时间信息。该架构能够有效处理视频生成任务,在保持图像外观信息的同时,跟随运动控制信号中的运动信息。
-
分离编码与融合:使用两个轻量级编码器分别对相机控制信号和物体控制信号进行编码,避免在RGB级别上产生干扰。编码后的控制信号通过融合模块(实现为卷积块)进行合并,形成最终的运动控制信号,再输入到U-Net架构中,结合参考图像生成视频。
-
-
三阶段训练策略:
-
阶段1:相机运动控制训练:仅使用具有相机运动的视频剪辑来训练相机编码器,暂时排除物体编码器和融合模块,让模型学会将渲染的球体与所代表的物体部分对齐。
-
阶段2:协同运动控制训练:加入同时包含相机和物体运动的视频剪辑,加入物体编码器和融合模块,使用密集单位球体作为物体控制信号,加速单位球体与物体部分的对齐,并通过随机丢弃一种控制信号来保持两种控制信号在冲突情况下的有效性。
-
阶段3:稀疏到密集的微调:目标是通过稀疏单位球体实现细粒度的物体运动控制,让模型能够自适应地确定每个渲染点的控制范围。通过结合显著性物体内的单位球体和轨迹长度较长的单位球体,构建稀疏球体集,对融合模块和运动模块进行微调。
-
Perception-as-Control应用场景
-
虚拟角色动画制作:根据预设的运动轨迹和相机视角,为虚拟角色生成自然流畅的动画,如行走、奔跑、舞蹈等动作,广泛应用于游戏开发、虚拟主播等领域。
-
产品展示视频生成:以产品图片为参考,通过控制相机运动和产品局部运动,生成全方位展示产品特点和功能的视频,增强产品展示效果,可用于电商产品展示、广告宣传等。
-
影视特效制作:在影视后期制作中,对特定场景或物体进行运动控制和动画合成,如让建筑物倒塌、车辆行驶等特效更加逼真自然,提升影视作品的视觉冲击力。
-
教育课件动画:将复杂的科学原理或历史事件通过动画形式展现,例如模拟地球自转、细胞分裂等过程,使教学内容更加生动形象,提高学生的学习兴趣和理解效果。
-
社交媒体短视频创作:用户可以基于自己喜欢的图片或视频片段,通过简单的操作生成个性化的动画短视频,添加有趣的运动效果,分享到社交媒体平台,增加内容的趣味性和吸引力。
-
建筑设计漫游:利用建筑图纸或模型生成虚拟漫游视频,通过控制相机在建筑内外的运动路径,让观众提前体验建筑的空间布局和设计风格,有助于建筑方案的展示和沟通。
Perception-as-Control项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...