EMAGE：用于从音频和部分遮蔽的手势中生成全身人类手势

0 10

EMAGE简介

EMAGE是由东京大学、庆应义塾大学、马普智能系统研究所、日本先进科学技术研究所和清华大学等机构的研究团队共同开发的一个创新框架，用于从音频和部分遮蔽的手势中生成全身人类手势。该框架结合了面部表情、局部身体动态、手势动作和全局运动，能够生成与音频同步的连贯全身动画。开发团队还创建了一个名为BEAT2的高质量3D运动捕捉数据集，为模型训练提供了强大的支持。EMAGE通过掩蔽手势重建和音频条件手势生成的联合训练，显著提升了手势生成的性能和多样性，展现了在数字人类动画创作中的巨大潜力。

EMAGE主要功能

全身手势生成：能够从音频和部分已知（或遮蔽）的手势中生成全身（包括面部表情、身体动作、手势和全局运动）的连贯动画。
音频同步：生成的手势能够与输入音频同步，确保动作与语音内容在时间和语义上保持一致。
灵活输入：支持用户输入部分空间-时间手势提示（即部分已知的手势），模型可以自动补全剩余的动画帧。
高质量数据集支持：通过BEAT2数据集提供高质量的3D运动捕捉数据，支持模型的训练和优化。
多样性和保真度：通过组合离散的面部和身体先验（VQ-VAE）和内容节奏自注意力机制，生成多样且逼真的手势动画。

EMAGE技术原理

掩蔽手势重建（Masked Gesture Reconstruction）：
- 利用掩蔽音频手势变换器（Masked Audio Gesture Transformer），通过掩蔽部分身体关节和帧，模型学习从已知手势中提取有效的身体提示。
- 通过掩蔽手势重建路径（MG2G），模型能够学习到鲁棒的身体特征，用于后续的手势生成。
音频条件手势生成（Audio-Conditioned Gesture Generation）：
- 结合音频特征和掩蔽手势重建得到的身体提示，通过音频条件路径（A2G）生成手势的潜在特征。
- 使用内容节奏自注意力（Content Rhythm Attention, CRA）机制，自适应地融合音频的节奏（如起始和幅度）与语义内容（如文本脚本的词嵌入）。
组合离散面部和身体先验（Compositional Discrete Face and Body Prior）：
- 通过四个独立的向量量化变分自编码器（VQ-VAE），分别对面部、上身、手部和下身进行建模，以提高结果的多样性和保真度。
- 每个VQ-VAE通过优化重建损失、速度损失和加速度损失来学习对应身体部位的离散表示。
全局运动预测（Global Motion Prediction）：
- 使用预训练的全局运动预测器，根据局部运动和脚部接触标签预测全局平移，减少脚部滑动现象。
数据集优化（BEAT2数据集）：
- BEAT2数据集通过将BEAT数据集的骨架数据转换为SMPL-X身体参数和FLAME头部参数，提供高质量的网格级数据。
- 数据集经过优化，包括身体形状和姿态参数的细化，以及面部混合形状权重到FLAME参数的转换，确保数据的准确性和一致性。