EMAGE:用于从音频和部分遮蔽的手势中生成全身人类手势

EMAGE简介

EMAGE是由东京大学、庆应义塾大学、马普智能系统研究所、日本先进科学技术研究所和清华大学等机构的研究团队共同开发的一个创新框架,用于从音频和部分遮蔽的手势中生成全身人类手势。该框架结合了面部表情、局部身体动态、手势动作和全局运动,能够生成与音频同步的连贯全身动画。开发团队还创建了一个名为BEAT2的高质量3D运动捕捉数据集,为模型训练提供了强大的支持。EMAGE通过掩蔽手势重建和音频条件手势生成的联合训练,显著提升了手势生成的性能和多样性,展现了在数字人类动画创作中的巨大潜力。

EMAGE:用于从音频和部分遮蔽的手势中生成全身人类手势

EMAGE主要功能

  1. 全身手势生成:能够从音频和部分已知(或遮蔽)的手势中生成全身(包括面部表情、身体动作、手势和全局运动)的连贯动画。
  2. 音频同步:生成的手势能够与输入音频同步,确保动作与语音内容在时间和语义上保持一致。
  3. 灵活输入:支持用户输入部分空间-时间手势提示(即部分已知的手势),模型可以自动补全剩余的动画帧。
  4. 高质量数据集支持:通过BEAT2数据集提供高质量的3D运动捕捉数据,支持模型的训练和优化。
  5. 多样性和保真度:通过组合离散的面部和身体先验(VQ-VAE)和内容节奏自注意力机制,生成多样且逼真的手势动画。

EMAGE技术原理

  1. 掩蔽手势重建(Masked Gesture Reconstruction)
    • 利用掩蔽音频手势变换器(Masked Audio Gesture Transformer),通过掩蔽部分身体关节和帧,模型学习从已知手势中提取有效的身体提示。
    • 通过掩蔽手势重建路径(MG2G),模型能够学习到鲁棒的身体特征,用于后续的手势生成。
  2. 音频条件手势生成(Audio-Conditioned Gesture Generation)
    • 结合音频特征和掩蔽手势重建得到的身体提示,通过音频条件路径(A2G)生成手势的潜在特征。
    • 使用内容节奏自注意力(Content Rhythm Attention, CRA)机制,自适应地融合音频的节奏(如起始和幅度)与语义内容(如文本脚本的词嵌入)。
  3. 组合离散面部和身体先验(Compositional Discrete Face and Body Prior)
    • 通过四个独立的向量量化变分自编码器(VQ-VAE),分别对面部、上身、手部和下身进行建模,以提高结果的多样性和保真度。
    • 每个VQ-VAE通过优化重建损失、速度损失和加速度损失来学习对应身体部位的离散表示。
  4. 全局运动预测(Global Motion Prediction)
    • 使用预训练的全局运动预测器,根据局部运动和脚部接触标签预测全局平移,减少脚部滑动现象。
  5. 数据集优化(BEAT2数据集)
    • BEAT2数据集通过将BEAT数据集的骨架数据转换为SMPL-X身体参数和FLAME头部参数,提供高质量的网格级数据。
    • 数据集经过优化,包括身体形状和姿态参数的细化,以及面部混合形状权重到FLAME参数的转换,确保数据的准确性和一致性。

EMAGE应用场景

  1. 虚拟数字人:为虚拟主播、客服、导游等数字人生成自然流畅的全身手势动画,使其在与用户交流时更加生动逼真,提升用户体验。
  2. 动画制作:在影视、游戏等动画制作中,根据角色的配音自动生成匹配的手势和身体动作,提高动画制作效率,降低人工成本。
  3. 在线教育:为在线课程中的虚拟教师生成与语音同步的手势和表情,增强教学的互动性和吸引力,帮助学生更好地理解和参与。
  4. 智能客服:在智能客服系统中,为虚拟客服角色生成自然的手势和表情,使其在解答用户问题时更加友好和专业。
  5. 虚拟会议:在虚拟会议或远程协作中,为用户生成与语音同步的手势动画,增强沟通的真实感和自然性,提升会议效果。
  6. 互动娱乐:在互动游戏或虚拟现实(VR)应用中,根据玩家的语音指令生成相应的手势和动作,增强游戏的沉浸感和趣味性。

EMAGE项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...