Segment Anything (Meta)
核心功能与特点
Segment Anything Model (SAM) 是Meta AI推出的一个全新AI模型,能够通过单击从任何图像中“裁剪”出任何对象。SAM是一个可提示的分割系统,对不熟悉的对象和图像具有零样本泛化能力,无需额外训练。
支持多种输入提示:允许通过指定图像中分割内容的提示进行广泛的分割任务,无需额外训练。支持的提示类型包括:前景/背景点、边界框、掩码。论文中探索了文本提示,但该功能未发布。
灵活的集成能力:SAM的可提示设计能够与其他系统灵活集成。它可以接收来自其他系统的输入提示,例如未来可从AR/VR头显获取用户注视点来选择对象,或通过目标检测器的边界框提示实现文本到对象的分割。
可扩展的输出:输出掩码可用作其他AI系统的输入。例如,对象掩码可以在视频中被跟踪,启用图像编辑应用程序,提升至3D,或用于拼贴等创意任务。
零样本泛化:SAM已经学习了关于对象是什么的通用概念,这种理解使其能够对不熟悉的对象和图像进行零样本泛化,而无需额外的训练。
高效灵活的模型设计:SAM的设计足够高效以驱动其数据引擎。模型解耦为1)一次性图像编码器(基于ViT-H,具有632M参数,在NVIDIA A100 GPU上运行约0.15秒);2)轻量级掩码解码器(基于Transformer,结合提示编码器共4M参数,在使用多线程SIMD执行的CPU浏览器中运行仅需约50毫秒)。平台支持方面,图像编码器使用PyTorch实现,需要GPU;提示编码器和掩码解码器可直接使用PyTorch运行,或转换为ONNX在支持ONNX运行时的各种平台上高效运行于CPU或GPU。模型在256块A100 GPU上训练了3-5天。
数据引擎与数据集
SAM的先进能力源于通过使用模型在环的“数据引擎”收集的数百万图像和掩码的训练。研究人员使用SAM及其数据交互式地注释图像并更新模型,此循环重复多次以改进模型和数据集。在利用SAM的帮助注释了足够的掩码后,利用SAM复杂的模糊感知设计,通过在图像上呈现点网格并让SAM分割每个点处的所有内容,从而完全自动地注释新图像。最终数据集SA-1B包含在约1100万张许可且保护隐私的图像上收集的超过11亿个分割掩码。
常见问题解答 (FAQ)
- 模型是否产生掩码标签? 不,模型仅预测对象掩码,不生成标签。
- 模型是否适用于视频? 目前该模型仅支持图像或视频中的单个帧。
- 代码获取:代码已在GitHub上开源。
收费信息
页面未提及任何收费信息,模型代码与数据集均可免费获取。
评论