【AI简报20230626】Midjourney5.2震撼发布！AI助手0门槛开发+运行-全球视讯-华南电脑网

【AI简报20230626】Midjourney5.2震撼发布！AI助手0门槛开发+运行-全球视讯

面包芯语 2023-06-26 19:35:27

AI 简报 20230626 期

1. 比sam快50倍的通用视觉模型fastsam(Fast Segment Anything)

原文：https://zhuanlan.zhihu.com/p/639179724

(相关资料图)

MetaAI提出的能够“分割一切”的视觉基础大模型SAM提供了很好的分割效果，为探索视觉大模型提供了一个新的方向。

虽然sam的效果很好，但由于sam的backbone使用了vit，导致推理时显存的占用较多，推理速度偏慢，对硬件的要求较高，在项目应用上有很大的限制。

也看到一些研究在尝试解决这个问题。

其中一个是清华团队的Expedit-SAM，对模型进行加速，论文结果最多可以提速1.5倍。主要思路是用2个不需要参数的操作：token clustering layer和token reconstruction layer。token clustering layer通过聚类将高分辨率特征转到低分辨率，推理时用低分辨率的进行卷积等操作，这样可以加速推理时间；token reconstruction layer是将低分辨率特征重新转回高分辨率。个人测试好像没有明显提升，不过已经打开了sam推理加速的思路。

最近看到FastSAM，论文结果最快提出50倍，参数更少，显存占用减少，适合应用部署。

web demo: FastSAM - a Hugging Face Space by An-619

预训练模型

fastsam-x

fastsam-s

1.论文解析

1.1 论文核心

以yolov8-seg的instance segmentation为基础，检测时集成instance segmentation分支。

（1）point prompt：点prompt用点和实例分割输出的mask进行匹配。和sam一样，利用前景点/背景点作为prompt。如果一个前景点落在多个mask中，可以通过背景点进行过滤。通过使用一组前景/背景点，能够在感兴趣的区域内选择多个mask，然后将这些mask合并为一个mask，用于完整的标记感兴趣的对象。此外，利用形态学操作来提高掩模合并的性能。

（2）box prompt：与实例分割输出的mask的box和输入的box进行iou计算，利用iou得分过滤mask。

（3）text prompt：利用clip模型，利用图像编码和文本编码直接的相似性，提取分数较高的mask。因为引入clip模型，text prompt的运行速度比较慢。