Sapiens:Meta推出的AI视觉模型 可识别图像中人体的各个关键点

Sapiens简介

Sapiens是由Meta公司的Reality Labs团队开发的一款先进的人工智能视觉模型。它专为理解人体而设计,能够处理包括2D姿态估计、身体部位分割、深度估计和表面法线预测在内的多项关键视觉任务。通过在超过3亿张野外人类图像上的预训练,Sapiens展现出了卓越的泛化能力,即使在标记数据稀缺或完全合成的情况下,也能在多种真实环境中表现优异。Sapiens的设计注重可扩展性,从3亿参数到20亿参数的模型规模,性能随着参数数量的增加而提升,为人类中心的计算机视觉任务设立了新的基准。

Sapiens:Meta推出的AI视觉模型 可识别图像中人体的各个关键点

Sapiens主要功能

  1. 2D姿态估计:识别和定位图像中人体的各个关键点,例如关节和肢体的连接点。
  2. 身体部位分割:将图像中的像素分类为不同的身体部位,如头部、手臂、躯干等。
  3. 深度估计:预测图像中各点的深度信息,为3D重建和场景理解提供数据支持。
  4. 表面法线预测:估计图像中每个点的表面法线,对于理解物体的3D形状至关重要。

Sapiens技术原理

  1. 大规模自监督预训练:Sapiens模型使用超过300百万张野外人类图像进行预训练,通过自监督学习提高模型对人类特征的理解。
  2. 高分辨率输入:与大多数现有模型相比,Sapiens的预训练输入分辨率提高到1024像素,增加了模型对细节的捕捉能力。
  3. 掩码自编码器(MAE):采用MAE方法进行预训练,模型学习从部分观察到的图像中重建原始图像。
  4. 编码器-解码器架构:在微调阶段,使用一致的编码器-解码器架构,编码器权重从预训练中初始化,而解码器则针对特定任务随机初始化并进行端到端的微调。
  5. 高质量注释:为了确保模型的泛化能力,使用多视角捕获设置和详细的合成数据集进行精确的注释,以保证训练数据的质量和一致性。
  6. 可扩展性:Sapiens模型设计允许通过增加参数数量来提升性能,从0.3亿到20亿参数的模型均展示了随着模型规模增加而性能提升的趋势。
  7. 特定任务微调:在预训练后,模型针对具体任务进行微调,以适应不同的应用场景,如不同的人体姿态或身体部位分割任务。
  8. 泛化能力:Sapiens在多种人类中心的基准测试中超越了现有基线,显示出在真实世界数据上的卓越泛化性能。

Sapiens应用场景

  1. 增强现实(AR):为用户在现实世界中叠加虚拟信息或对象提供精确的人体姿态和部位识别。
  2. 虚拟现实(VR):通过精确的3D人体重建,提升VR环境中的沉浸式体验。
  3. 健康与健身:通过分析人体姿态,提供运动姿势校正或健身指导。
  4. 安全监控:在公共场合或工作场所中检测异常行为或跌倒事件。
  5. 时尚与零售:为在线购物平台提供虚拟试衣间,让用户看到服装穿在不同体型上的样式。
  6. 游戏与娱乐:在视频游戏中生成逼真的非玩家角色(NPC)动作,提升游戏的真实感。

Sapiens项目入口

© 版权声明

相关文章

暂无评论

暂无评论...