Segment Anything (Meta)

打开网站

Official Website

核心功能与特点

Segment Anything Model (SAM) 是Meta AI推出的一个全新AI模型，能够通过单击从任何图像中“裁剪”出任何对象。SAM是一个可提示的分割系统，对不熟悉的对象和图像具有零样本泛化能力，无需额外训练。

支持多种输入提示：允许通过指定图像中分割内容的提示进行广泛的分割任务，无需额外训练。支持的提示类型包括：前景/背景点、边界框、掩码。论文中探索了文本提示，但该功能未发布。

灵活的集成能力：SAM的可提示设计能够与其他系统灵活集成。它可以接收来自其他系统的输入提示，例如未来可从AR/VR头显获取用户注视点来选择对象，或通过目标检测器的边界框提示实现文本到对象的分割。

可扩展的输出：输出掩码可用作其他AI系统的输入。例如，对象掩码可以在视频中被跟踪，启用图像编辑应用程序，提升至3D，或用于拼贴等创意任务。

零样本泛化：SAM已经学习了关于对象是什么的通用概念，这种理解使其能够对不熟悉的对象和图像进行零样本泛化，而无需额外的训练。

高效灵活的模型设计：SAM的设计足够高效以驱动其数据引擎。模型解耦为1）一次性图像编码器（基于ViT-H，具有632M参数，在NVIDIA A100 GPU上运行约0.15秒）；2）轻量级掩码解码器（基于Transformer，结合提示编码器共4M参数，在使用多线程SIMD执行的CPU浏览器中运行仅需约50毫秒）。平台支持方面，图像编码器使用PyTorch实现，需要GPU；提示编码器和掩码解码器可直接使用PyTorch运行，或转换为ONNX在支持ONNX运行时的各种平台上高效运行于CPU或GPU。模型在256块A100 GPU上训练了3-5天。

数据引擎与数据集

SAM的先进能力源于通过使用模型在环的“数据引擎”收集的数百万图像和掩码的训练。研究人员使用SAM及其数据交互式地注释图像并更新模型，此循环重复多次以改进模型和数据集。在利用SAM的帮助注释了足够的掩码后，利用SAM复杂的模糊感知设计，通过在图像上呈现点网格并让SAM分割每个点处的所有内容，从而完全自动地注释新图像。最终数据集SA-1B包含在约1100万张许可且保护隐私的图像上收集的超过11亿个分割掩码。

常见问题解答 (FAQ)

模型是否产生掩码标签？ 不，模型仅预测对象掩码，不生成标签。
模型是否适用于视频？ 目前该模型仅支持图像或视频中的单个帧。
代码获取：代码已在GitHub上开源。

收费信息

页面未提及任何收费信息，模型代码与数据集均可免费获取。

访问量: 463.2K

国家: United States

AI辅助设计 Open Source

分享