SAM 2 :Meta AI 推出的能在图片和视频中实时分割对象的模型

SAM 2简介

2024年7月29日,Meta公司发布了Meta Segment Anything Model 2(SAM 2),这是首个支持视频和图像中实时可提示对象分割的统一模型,实现了最先进的性能。SAM 2能够在无需定制适配的情况下分割任何对象,包括之前未见过的,具有广泛的实际应用潜力。遵循开放科学的方法,Meta分享了代码、模型权重以及SA-V数据集,后者包含约51,000个真实世界视频和超过600,000个时空掩膜。

SAM 2 :Meta AI 推出的能在图片和视频中实时分割对象的模型

SAM 2主要功能

1.实时对象分割:SAM 2能够实时地对图像和视频中的对象进行分割,提供准确的像素级分割。
2.统一模型架构:SAM 2设计为一个统一模型,适用于图像和视频的分割任务,无需为不同媒介单独训练模型。
3.零样本学习能力:模型能够对未见过的对象进行分割,无需针对特定视觉内容进行定制适应。
4.交互式分割:用户可以通过点击、绘制框或遮罩来与模型交互,指导其进行更精确的分割。
5.记忆机制:SAM 2使用记忆机制来存储和利用之前处理过的视频帧信息,以提高分割的连贯性和准确性。
6.流式处理:模型采用流式架构,可以逐帧处理视频,适用于实时应用场景。
7.遮挡处理能力:通过“遮挡头”预测对象在当前帧中是否可见,有效处理遮挡问题。
8.大规模数据集支持:使用SA-V数据集,包含大量真实世界视频和masklets,为模型训练提供丰富数据。

SAM 2技术原理

1.Promptable视觉分割任务:设计了一种新的任务类型,允许模型根据输入提示在视频帧中选择和细化对象。
2.统一架构的泛化:SAM 2的架构从图像扩展到视频领域,通过点击或其他提示定义目标对象。
3.轻量级遮罩解码器:使用轻量级解码器从当前帧的图像嵌入和编码提示生成分割遮罩。
4.记忆机制:包含记忆编码器、记忆库和记忆注意力模块,用于存储和利用视频帧中的信息。
5.记忆编码和注意力:记忆编码器基于当前遮罩预测创建帧记忆,并将其存储在记忆库中,记忆注意力模块将这些记忆用于后续帧的分割。
6.流式架构:模型设计为流式处理,能够实时处理视频,存储关于分割对象的信息。
7.多遮罩输出:在存在分割歧义时,SAM 2能够输出多个有效的遮罩,并根据置信度选择最佳遮罩。
8.遮挡头:新增模型输出用于预测目标对象在当前帧中的可见性,帮助处理遮挡情况。
9.数据引擎和迭代改进:通过与人类注释者互动的数据引擎收集和迭代改进数据集和模型。

SAM 2应用场景

1.视频编辑:创建新的视频效果,如背景替换或对象突出。
2.科学研究:分析视频数据,如追踪野生动物或细胞活动。
3.医学成像:辅助分析医学图像,如皮肤癌检测或手术视频。
4.自动驾驶:提高车辆对周围环境的理解和反应能力。
5.内容创作:在视频制作中增加控制性和创造性,如特效添加。
6.数据注释:加速视觉数据的标注过程,提升计算机视觉系统训练效率。

SAM 2项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...