InterTrack:能够从单目RGB视频中跟踪人体与物体的互动

InterTrack简介

InterTrack是由德国图宾根大学、图宾根人工智能中心以及马克斯·普朗克信息学研究所的研究人员开发的一种先进的跟踪技术。这项技术能够从单目RGB视频中跟踪人体与物体的互动,而无需使用任何预定义的物体模板。通过将四维跟踪问题分解为逐帧姿态估计和全局一致性形状优化,InterTrack能够处理遮挡和动态运动中的复杂交互场景。该方法利用合成数据进行训练,展现出对真实世界视频良好的泛化能力。开发团队通过创建ProciGen-Video数据集,进一步推动了视频基础方法的训练和研究。

InterTrack:能够从单目RGB视频中跟踪人体与物体的互动

InterTrack主要功能

  1. 无模板跟踪:InterTrack能够在没有预定义物体模板的情况下,从单目RGB视频中跟踪人体和物体的交互。
  2. 处理遮挡和动态场景:该技术特别设计用于处理视频中的遮挡情况以及人体和物体的动态运动。
  3. 时间一致性:通过优化方法确保跟踪结果在时间维度上保持一致性。
  4. 合成数据训练:利用合成数据进行训练,使模型能够泛化到真实世界的视频。

InterTrack技术原理

  1. 4D问题分解:将复杂的四维跟踪问题分解为逐帧的姿态估计和全局一致性的形状优化。
  2. 单视图重建:使用单视图重建方法获得每一帧中的人体和物体的3D点云,尽管这些点云在时间上是不一致的。
  3. 自编码器(CorrAE):提出一个高效的自编码器,直接从每帧重建的点云预测SMPL(Skinned Multi-Person Linear model)顶点,引入时间一致性。
  4. 姿态估计器(TOPNet):引入一个基于时间信息的姿态估计器,用于预测在遮挡情况下物体的平滑旋转。
  5. 合成视频数据集(ProciGen-Video):为了训练模型,开发了一种方法生成合成交互视频,并创建了一个包含8.5k序列和完整3D真值数据的视频数据集。
  6. 联合优化:基于预测的接触点,联合优化人体和物体的跟踪,以实现更合理的交互。
  7. 时间信息利用:在物体旋转预测中利用时间信息,确保即使在物体被遮挡时也能保持准确的跟踪。
  8. 泛化能力:通过在合成数据集上预训练,模型能够泛化到真实世界的视频,提高了对新对象实例的适应性。
InterTrack:能够从单目RGB视频中跟踪人体与物体的互动

InterTrack应用场景

  1. 增强现实(AR):在AR应用中,InterTrack可以实时跟踪用户与虚拟对象的交互,提供更加自然和直观的用户体验。
  2. 人机交互(HCI):用于分析用户如何与设备或软件界面互动,从而改进产品设计和交互流程。
  3. 视频监控分析:在安全监控领域,InterTrack能够识别和分析人体与环境中物体的交互,用于异常行为检测或人流分析。
  4. 自动驾驶系统:在自动驾驶车辆中,该技术可以用来分析行人与周围物体的交互,提高车辆对周围环境的理解能力。
  5. 体育分析:在体育训练和比赛中,InterTrack可以追踪运动员与体育器材的互动,用于技术动作分析和表现优化。
  6. 健康监护:对于老年人或需要特别护理的群体,该技术可以监测其日常活动,如与辅助设备或家具的互动,以预防跌倒和其他安全问题。

InterTrack项目入口

© 版权声明

相关文章

暂无评论

暂无评论...