InterTrack：能够从单目RGB视频中跟踪人体与物体的互动

0 20

InterTrack简介

InterTrack是由德国图宾根大学、图宾根人工智能中心以及马克斯·普朗克信息学研究所的研究人员开发的一种先进的跟踪技术。这项技术能够从单目RGB视频中跟踪人体与物体的互动，而无需使用任何预定义的物体模板。通过将四维跟踪问题分解为逐帧姿态估计和全局一致性形状优化，InterTrack能够处理遮挡和动态运动中的复杂交互场景。该方法利用合成数据进行训练，展现出对真实世界视频良好的泛化能力。开发团队通过创建ProciGen-Video数据集，进一步推动了视频基础方法的训练和研究。

InterTrack主要功能

无模板跟踪：InterTrack能够在没有预定义物体模板的情况下，从单目RGB视频中跟踪人体和物体的交互。
处理遮挡和动态场景：该技术特别设计用于处理视频中的遮挡情况以及人体和物体的动态运动。
时间一致性：通过优化方法确保跟踪结果在时间维度上保持一致性。
合成数据训练：利用合成数据进行训练，使模型能够泛化到真实世界的视频。

InterTrack技术原理

4D问题分解：将复杂的四维跟踪问题分解为逐帧的姿态估计和全局一致性的形状优化。
单视图重建：使用单视图重建方法获得每一帧中的人体和物体的3D点云，尽管这些点云在时间上是不一致的。
自编码器（CorrAE）：提出一个高效的自编码器，直接从每帧重建的点云预测SMPL（Skinned Multi-Person Linear model）顶点，引入时间一致性。
姿态估计器（TOPNet）：引入一个基于时间信息的姿态估计器，用于预测在遮挡情况下物体的平滑旋转。
合成视频数据集（ProciGen-Video）：为了训练模型，开发了一种方法生成合成交互视频，并创建了一个包含8.5k序列和完整3D真值数据的视频数据集。
联合优化：基于预测的接触点，联合优化人体和物体的跟踪，以实现更合理的交互。
时间信息利用：在物体旋转预测中利用时间信息，确保即使在物体被遮挡时也能保持准确的跟踪。
泛化能力：通过在合成数据集上预训练，模型能够泛化到真实世界的视频，提高了对新对象实例的适应性。