论文笔记：EdgeTAM: On-Device Track Anything Model

过去的方法通过压缩SAM的image encoder来实现轻量化，因为SAM的mask decoder参数量很小。转而使用基于学习的压缩器，比如Perceiver，用一组小固定 learned queries来总结密集feature map，然而简单使用Perceiver性能也会降低。两个阶段均将student model与SAM2的image encoder特征对齐，在第二阶段，还对齐memor

m0_46238121

690人浏览 · 2025-07-08 21:12:57

m0_46238121 · 2025-07-08 21:12:57 发布

SAM是第一个可用于提示的图像分割基础模型。SAM2在SAM的基础上发展，新加memory bank mechanism，可用于图像和视频分割

虽然SAM2效果很好，但是不能用于移动端推理，最小的SAM2模型在iPhone 15 Pro Max运行速率仅为1FPS。
过去的方法通过压缩SAM的image encoder来实现轻量化，因为SAM的mask decoder参数量很小。但是不适用于SAM2，因为新加的memory attention模块仍需要很多计算量
[(a)]

(a)使用不同的image encoder backbone仍不能降低计算量，因为Decoder的计算量很大；(b)通过减小memory attention的层数和去掉其中的模块，可以发现cross attention(CA)是其性能瓶颈
SAM2对每一帧都使用memory encoder进行编码，和object-level pointers一起存储在memory bank中。然后再与当前帧特征通过memory attention进行融合。
这些记忆被密集编码，因此cross attention出现巨大的矩阵乘法。因此虽然参数量小于image encoder，其计算复杂度很高

为了模型可以在移动端运行，本文研究如何利用视频中的冗余。提出在实施memory attention之前，对帧级memories进行压缩。
一开始使用空间池化，但是性能显著降低。
转而使用基于学习的压缩器，比如Perceiver，用一组小固定 learned queries来总结密集feature map，然而简单使用Perceiver性能也会降低
推测视频分割作为密集预测任务，memory bank需要保存空间结构，而这种空间结构会被简单的Perceiver所丢弃

本文提出新的轻量化模块在压缩帧级特征的同时保留2D空间信息
具体来说，将learnable query分成两组

与原来的Perceiver一样，和input feature做global attention，输出single vector
具有2D priors，每一个query只压缩非重叠local patch，因此输出包含空间结构信息

除了架构调整，提出distillation pipeline，有两个训练阶段

用图像分割数据集SA-1B训练SAM2，其中memory相关模块不参与
用图像和视频分割数据集SA-1B和SA-V一起训练SAM2所有模块

两个阶段均将student model与SAM2的image encoder特征对齐，在第二阶段，还对齐memory attention的输出

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

Flutter 三方库 image_picker 鸿蒙化图片选择器集成

image_picker是 Flutter 生态中用于从相册选择图片或拍摄照片的常用插件。本文基于 OpenHarmony TPC 仓库的适配版本，详细讲解 image_picker 在鸿蒙项目中的接入流程、权限配置和核心 API 使用。

开源鸿蒙跨平台开发者社区

Flutter dio 在 OpenHarmony 上的网络异常处理适配实践

本文分享了Flutter dio在OpenHarmony平台的网络请求适配经验。针对迁移后出现的超时、HTTPS证书校验失败等问题，提出了具体解决方案：配置网络权限、优化dio超时设置、处理HTTPS异常、建立统一错误处理机制、增加自动重试功能等。通过全局单例Dio、图片加载优化等措施，显著提升了网络请求的稳定性和成功率。文章总结了Flutter跨平台开发中需要注意的平台差异问题，为开发者提供了实

开源鸿蒙跨平台开发者社区

Flutter for OpenHarmony 第三方库实战：使用 fl_chart 构建消费统计图表应用

在移动应用开发中，图表展示是非常常见的功能。例如记账应用、学习统计、运动记录、项目进度、打卡数据、成绩分析等，都需要通过图表让数据更直观。如果只使用普通文字展示数据，用户需要自己在脑子里计算比例和趋势。让用户看一串数字再自己理解变化，本质上就是把产品经理没做完的活扔给用户，多少有点不讲武德。图表可以让数据更容易理解。饼图适合展示分类占比；柱状图适合展示不同时间或不同类别的数据对比；折线图适合展示连