MotionFix：用自然语言描述来编辑3D人体动作

0 90

MotionFix简介

MotionFix是由德国马克斯普朗克智能系统研究所的研究团队开发的一种创新的3D人体动作编辑数据集。该数据集通过半自动方式收集，包含源动作、目标动作和编辑文本三元组，旨在训练和评估能够根据自然语言描述编辑3D人体动作的模型。通过这种方式，MotionFix不仅推动了动作编辑技术的发展，也为未来在更细致的动作生成领域的研究铺平了道路。

MotionFix主要功能

数据集提供： MotionFix提供了一个包含6730个三元组的数据集，每个三元组包括源动作、目标动作和编辑文本。这些数据用于训练和评估3D人体动作编辑模型。
文本驱动的动作编辑： 它支持根据自然语言描述来编辑3D人体动作，允许用户通过文本指令来修改动作，如改变速度、风格或特定身体部位的运动。
模型训练与评估： MotionFix数据集使得研究者能够训练条件扩散模型（如TMED），并评估其在根据文本编辑3D动作任务上的性能。

MotionFix技术原理

半自动数据收集： MotionFix通过结合运动捕捉数据和人工注释来创建数据集。利用运动嵌入空间（如TMR模型）来找到相似的动作对，然后由人工描述它们之间的差异。
条件扩散模型（TMED）： TMED模型结合了源动作和编辑文本作为输入，通过条件扩散过程生成编辑后的动作。这个过程涉及到将源动作逐渐转化为目标动作，同时考虑文本指令。
SMPL动作表示： 使用SMPL（Skinned Multi-Person Linear）模型来参数化和表示3D人体动作，这使得动作可以被编码为一系列参数，便于模型处理。
编码器-解码器架构： TMED模型包括多个编码器来处理时间步、文本和动作输入，以及一个变换器（Transformer）网络来整合这些信息，并生成编辑后的动作。
分类器自由引导（Classifier-Free Guidance）： 在扩散过程中，模型使用分类器自由引导来调整生成过程中对源动作和文本指令的依赖程度，以优化生成质量。
检索基线评估： 除了直接比较生成动作和目标动作，MotionFix还引入了基于检索的评估指标，如生成到目标检索和生成到源检索，来衡量模型的性能。