MotionCLR：根据文本提示生成相应的人体运动

0 50

MotionCLR简介

MotionCLR是一种基于注意力机制的运动扩散模型，它能够理解和建模文本与运动之间的细粒度对应关系，实现无需训练的交互式运动生成和编辑。通过自注意力和交叉注意力机制，MotionCLR能够捕捉帧间的序列相似性和文本与运动之间的对应关系，从而支持如运动强调、原位替换和基于示例的运动生成等多种编辑任务。该模型以其良好的生成性能和可解释性，在人类动画社区中提供了一种新的运动编辑解决方案。

MotionCLR主要功能

运动生成： 根据文本提示生成相应的人体运动。
运动编辑： 包括运动（去）强调、原位运动替换、运动序列移位和基于示例的运动生成等。
风格迁移： 将一种运动的风格应用到另一种运动上，保持内容的同时改变风格。
动作计数： 通过分析注意力图谱来计算运动序列中特定动作的次数。
交互式编辑： 允许用户通过调整参数来实现实时的运动编辑和生成。

MotionCLR技术原理

自注意力机制（Self-attention）：
- 用于测量帧间的序列相似性。
- 影响运动特征的顺序，捕捉不同运动帧之间的互动。
交叉注意力机制（Cross-attention）：
- 用于寻找文本序列和运动序列之间的细粒度对应关系。
- 激活运动序列中与文本中特定词汇相对应的时间步。
文本编码：
- 使用CLIP-ViT-B模型将文本编码为词级嵌入，为运动生成提供条件。
运动嵌入：
- 将运动序列编码为嵌入，用于在自注意力和交叉注意力中作为查询（Q）、键（K）和值（V）。
扩散过程：
- 通过1000个扩散步骤训练模型，模拟从噪声到清晰运动的生成过程。
条件掩码和分类器自由引导：
- 使用条件掩码和分类器自由引导学习来提高运动生成的质量和多样性。
变换器架构：
- 网络架构遵循8层变换器设计，增强模型的序列处理能力。
端到端训练和推理：
- 模型端到端训练，推理阶段支持多种采样方法，如DDIM和DPM-solver采样。
用户交互界面：
- 提供用户界面，使用户能够输入文本、调整参数并实时预览运动生成和编辑结果。