Animate Anyone 2：阿里通义推出的角色图像动画技术

0 60

Animate Anyone 2简介

Animate Anyone 2是由阿里巴巴集团通义实验室开发的一种角色图像动画技术。它通过从驱动视频中提取环境信息和运动信号，实现了角色动画与周围环境的无缝融合，展现出强大的环境适应性。该技术采用形状无关掩码策略，打破角色与环境边界之间的固定关系，使角色能够自然地融入背景。同时，通过对象引导器和空间混合机制，Animate Anyone 2能够精确地保留角色与物体之间的交互细节。此外，其深度感知姿态调制策略进一步提升了模型在复杂动作场景下的鲁棒性。在多个基准测试中，Animate Anyone 2均展现出卓越的性能，为角色动画领域带来了新的突破。

Animate Anyone 2主要功能

高保真角色动画生成：能够生成一致且高质量的角色动画，保持角色外观的一致性和动作的稳定性。
环境适应性：通过提取驱动视频中的环境信息，使角色动画能够与周围环境无缝融合，展现出角色与环境的自然互动。
复杂动作处理：能够处理多样化和复杂的角色动作，确保角色在各种动态场景中的表现自然流畅。
对象交互保真：通过对象引导器和空间混合机制，保留角色与环境中物体的交互细节，增强动画的真实感。

Animate Anyone 2技术原理

形状无关掩码策略（Shape-agnostic Mask Strategy）：
- 原理：将角色掩码划分为多个非重叠块，并传播块的最大值，打破掩码区域与角色轮廓之间的对应关系。
- 效果：使网络能够更有效地学习角色与环境的融合，避免角色形状泄漏问题。
对象引导器（Object Guider）：
- 原理：设计一个轻量级的对象引导器来提取交互对象的特征，通过空间混合机制将这些特征注入生成过程中。
- 效果：增强对象交互的保真度，确保角色与环境中物体的互动自然真实。
深度感知姿态调制（Depth-wise Pose Modulation）：
- 原理：在骨架信号中加入结构化深度信息，增强肢体间空间关系的表示。
- 效果：更好地处理复杂和多样化的角色姿态，提升模型在复杂动作场景下的鲁棒性。
环境表示提取（Environmental Representation Extraction）：
- 原理：从驱动视频中提取环境信息，将其作为条件输入，定义环境为排除角色区域的区域。
- 效果：使角色动画能够与环境上下文保持一致，实现角色与环境的无缝融合。
自监督学习策略（Self-supervised Learning Strategy）：
- 原理：在训练过程中，利用自监督学习策略，通过分离角色和环境序列，随机采样角色图像并合成到随机背景上。
- 效果：使模型在推理时能够自动识别图像中的角色，减少对额外分割步骤的依赖，提高准确性。