PicoSAM2突破侧端分割极限 | 1.22MB模型在IMX500上实现14.3ms实时推理

边缘云机器学习算法

点击下方卡片,关注「集智书童」公众号

精简阅读版本

本文主要解决了什么问题

边缘设备上的实时、低延迟分割需求 :面向智能眼镜、物联网设备等对延迟和隐私敏感的应用,现有高性能模型(如SAM2)因计算量大、架构复杂而难以部署。

传感器端部署的硬件限制 :例如索尼IMX500传感器仅支持有限的ONNX算子、最大8MB模型大小、RGB输入限制,使得现有轻量化模型仍无法满足要求。

在资源受限条件下保持Prompt驱动的可交互性与高精度 :在不牺牲基本功能的前提下实现高效推理。

本文的核心创新是什么

提出PicoSAM2模型架构 :基于深度可分离U-Net结构,采用CNN设计,完全避免Transformer模块,确保模型轻量化且兼容边缘AI芯片。

隐式Prompt编码机制 :通过裁剪图像使Prompt点位于中心区域,使模型学习空间先验,无需显式Prompt编码输入。

结合知识蒸馏与混合监督训练策略

  • • 使用教师模型(SAM2)进行软logits监督;
  • • 结合真实标签的硬损失(BCE + Dice);
  • • 引入动态权重调整机制提升泛化能力。

INT8量化与IMX500部署优化 :实现模型压缩至1.22MB,并在IMX500上达到14.3ms延迟,每周期约86 MACs的高效推理。

结果相较于以前的方法有哪些提升

模型大小与部署兼容性显著提升

  • • 参数量仅1.3M(130万),量化后1.22MB;
  • • 是唯一一个满足IMX500 <8MB内存限制的模型;
  • • 完全兼容其ONNX算子集和CNN执行引擎。

推理效率领先

  • • 在NVIDIA T4上仅需336M MACs运算,延迟2.54ms;
  • • IMX500上实现14.3ms延迟,每周期约86 MACs;
  • • 是目前唯一能在传感器端运行的Prompt式分割模型。

性能指标优于同类轻量模型

  • • COCO数据集上mIoU达51.9%;
  • • LVIS数据集上mIoU达44.9%,mAP达45.1%;
  • • 相比标准训练,蒸馏提升了LVIS上3.5%mIoU和5.1%mAP。

消融实验验证有效性

  • • 混合监督训练提升了模型泛化能力;
  • • 固定Prompt策略在模态受限下仍能保持良好分割效果。

局限性总结

Prompt灵活性受限 :只能处理固定空间位置的Prompt,缺乏多Prompt或多模态交互能力。

模型通用性受限 :为IMX500定制优化,可能需要重新适配其他边缘平台。

依赖教师模型质量 :知识蒸馏效果受SAM2输出质量影响,若教师模型存在偏差,学生模型也会继承。

仅支持单图推理 :未扩展至视频序列,限制了其在视频分割场景中的应用。

深入阅读版本

导读

实时、设备端分割对于智能眼镜和物联网设备等对延迟敏感和注重隐私的应用至关重要。作者介绍了PicoSAM,一个轻量级(130万参数,336亿MAC)的可 Prompt 分割模型,专为边缘和传感器内执行优化,包括索尼IMX500。它基于深度可分离的U-Net,通过知识蒸馏和定点 Prompt 编码从SAM2中学习。在COCO和LVIS上,它分别达到了51.9%和44.9%的mIoU。量化模型(1.22MB)在IMX500上运行速度为14.3毫秒——实现每周期86个MAC,使其成为唯一满足内存和计算约束的传感器部署模型。蒸馏将LVIS性能提升了3.5%mIoU和5.1%mAP。这些结果表明,高效、可 Prompt 的分割可以直接在摄像头上实现,无需云或主机处理即可保护隐私。

1 引言

任务无关分割领域的最新进展,例如Meta的Segment Anything模型(SAM)[1]及其继任者SAM2 [2],能够在各种视觉任务中实现高质量的基于 Prompt 的分割。虽然SAM2 [2]提高了准确性和效率,并支持视频输入,但其庞大的体积和基于transformer的架构使其不适合部署在延迟和功耗受限的环境中,例如智能相机、可穿戴眼镜、物联网电池供电设备和无人机。

边缘计算通过在设备上直接实现低延迟、私有推理提供了解决方案[3]–[6]。智能传感器领域的最新进展正在推动向传感器端智能的转变,使得实时感知直接在数据采集点得以实现。索尼实现的一种新型传感器——IMX500相机传感器[7]–[9],集成了相机与边缘AI处理器[10],实现了传感器 Level 的实时AI。然而,严格的硬件限制,包括模型总大小不超过8 MB以及有限的ONNX算子支持,使得现有的可 Prompt 分割模型,包括TinySAM[11]、EdgeSAM[12]、MobileSAMv2[13]和LiteSAM[14],无法直接部署在IMX500上。实际上,这些模型要么超出内存限制,依赖不受支持的算子,或者需要与IMX500的执行引擎不兼容的架构组件(例如,Transformer)。

picture.image

图片

图1:分割模型的比较:延迟与内存

本文通过引入PicoSAM2,图??,解决了上述局限性,这是首个展示实际传感器部署的分割模型,专为资源受限的边缘平台设计。

  1. 相关工作

可 Prompt 视觉分割技术近年来取得了快速进展,研究重点集中在高效训练[14], [15]、知识蒸馏[11], [12], [16]–[20]、模型剪枝[21]以及无训练方法[22]等方面,以实现高效架构[23],使强大的模型如SAM[1]能够在边缘设备上部署。TinySAM[11]通过阶段式监督和 Prompt 采样将SAM蒸馏为更小、更快的模型,随后进行训练后量化[24], [25]。作者的工作在此基础上,采用完全定制的UNet风格学生模型,而不依赖于原始TinySAM Backbone 网络。EdgeSAM[12]用CNN替换了SAM的Transformer编码器,在移动设备上实现了超过30 FPS的性能。他们的“ Prompt 循环”蒸馏方法通过反馈 Prompt 迭代细化学生 Mask 。

相比之下,作者的方法静态编码固定 Prompt 行为,消除了运行时 Prompt 开销。SAM2[2]使用金字塔Transformer Backbone 网络[26]将 Prompt 分割扩展到视频。作者从其架构中获得灵感,但专注于静态图像并移除时间组件,以实现轻量级部署。MobileSAMv2[13]通过降低 Prompt 复杂性和简化架构来优化SAM解码器。类似地,作者使用基于CNN的 Mask 头重新设计解码器,并避免昂贵的基于注意力的模块。LiteSAM[14]通过轻量级模块化组件展示了高性能,包括基于Transformer的LiteViT编码器[27]和AutoPPN[28]。尽管有效,但其对Transformer块的依赖限制了其在MCU部署的适用性。相反,作者提出了一种具有金字塔特征的密集CNN Backbone 网络,以在传感器内模拟类似Transformer的能力[7], [8]。

picture.image

图片

图2:各模型 Mask 推理的定性比较

  1. 方法论

将高性能SAM2模型适配于边缘和传感器端推理——例如在索尼IMX500 [7]上——面临三个关键挑战:严格的8MB内存限制、受限的ONNX算子支持,以及仅支持RGB输入从而排除多模态 Prompt 。本文提出并评估了一种新颖的分割设计来应对这些限制。

A. 模型架构

作者设计了一个轻量级的UNet[29],其中包含了深度可分离卷积[30]、 Shortcut 以及上/下采样,以确保空间信息的保留和量化友好性。

picture.image

图片

图3:PicoSAM2架构示意图。

作者不允许任何超出RGB的输入通道,这防止了显式 Prompt 编码。为了解决这个问题,作者对每个训练图像进行裁剪,使 Prompt 点位于中心,从而让模型学习空间先验。这种隐式编码使得模型无需额外输入即可进行 Prompt 。学生通过完整 Prompt 向教师学习,但只能看到RGB裁剪图像。

B. 知识蒸馏

作者的训练目标结合了教师模型的软监督和真实标签 Mask 的硬监督。具体来说,作者使用一个两部分的损失函数:(1) 均方误差损失

来匹配教师模型的软logits [31],以及 (2) 一个由平衡二分类交叉熵

和Dice损失

[29], [32] 组成的双分量对齐损失。总损失为:

其中

根据教师的置信度动态调整 [33],使得当预测可靠时学生更依赖教师,否则依赖真实值。

C. 训练、量化与部署

学生模型在COCO [34]上使用AdamW优化器 [35]进行训练,并在LVIS [36]上进行评估。训练完成后,作者执行静态量化以转换为INT8 [37]–[42]。在硬件基准测试中,作者使用了Sony IMX500智能视觉传感器 [7], [8],这是一种堆叠式BSI-CMOS图像传感器,集成了针对CNN推理优化的DSP。该传感器具有2304个MAC单元和2.62.5 MHz可编程DSP,能够实现4.97 TOPS/W的性能。CNN结果通过SPI接口传输,实现了低功耗、紧凑的边缘部署,证明了在严格的内存和操作约束下, Prompt 式分割可以在传感器上运行。

picture.image

图片

表 I: 边缘分割模型的比较。延迟是在NVIDIA T4实例上测量的,除了Q-PicoSAM2(*)是在Sony IMX500上测量的。

picture.image

图片

图4:LVIS上的分割精度(mIoU)和精确度(mAP)与模型大小(对数刻度)的关系

  1. 结论与讨论

PicoSAM2与轻量级分割模型在计算成本、准确性和可部署性方面进行了基准测试。表I总结了在COCO/LVIS上的MACs、延迟、mIoU、模型大小以及IMX500兼容性。

PicoSAM2在NVIDIA T4 GPU上实现了最低的计算成本,为336M MACs,推理延迟为

。Q-PicoSAM2在Sony IMX500上运行时,推理延迟为

。基于此,它在IMX500上实现了每个周期约86 MACs。此外,它是唯一一个满足严格

内存约束的分割模型(1.3M参数,1.22MB量化)。尽管存在这些约束,它仍然在COCO上达到了

的mIoU,在LVIS上达到了

蒸馏技术使LVIS数据集在标准训练的基础上提升了3.5%的mIoU和5.1%的mAP。图1展示了在对数尺度上延迟与模型大小之间的权衡,突出了PicoSAM2在所有比较模型中具有最低延迟和最小尺寸的位置。PicoSAM2在COCO和LVIS数据集上实现了与其尺寸相比非常强的分割精度(mIoU)(见图4a)。蒸馏后的PicoSAM2模型与监督 Baseline 相比,在LVIS上显著提高了精度(见图4b)。

图2中的定性比较表明,PicoSAM2凭借其任务特定设计,能够生成高质量的单一 Prompt 分割 Mask 。

这项工作介绍了PicoSAM2,一个基于 Prompt 的分割模型,专为在索尼IMX500边缘AI视觉传感器上进行实时部署而设计。通过对分割架构的设计进行重新思考以实现极致效率,PicoSAM2在三个核心维度上实现了具有竞争力的性能:计算成本、分割精度和可部署性。在计算方面,PicoSAM2仅需336M MACs运算量——不到SAM-H的0.02%,在INT8量化后,通过2.5ms GPU延迟和14.3ms设备端延迟实现了实时性能。尽管模型体积较小(参数量1.3M,量化后1.22MB),但使用单点 Prompt 时,模型在COCO数据集上保持了51.9%的mIoU,在LVIS数据集上保持了45.1%的性能。关键的是,它满足了IMX500严格的8MB内存限制,仅使用RGB输入,并符合有限的ONNX算子支持。

值得注意的是,Q-PicoSAM2在索尼IMX500上实现了约每周期86 MACs的推理效率。消融实验证实,SAM2蒸馏提高了泛化能力,优于纯监督学习(在LVIS上提升了5.08% mAP),验证了在有限数据情况下混合监督的优势。此外,固定空间 Prompt 使模型即使在严格的模态约束下也能保持可 Prompt 性,尽管在灵活性和可解释性方面存在局限性。这项工作展示了在受限传感器上直接部署智能、基于 Prompt 的视觉模型的可行性。

参考

[1]. PicoSAM2: Low-Latency Segmentation In-Sensor for Edge Vision Applications


扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论