AI 简报 20230626 期
1. 比sam快50倍的通用视觉模型fastsam(Fast Segment Anything)
原文:https://zhuanlan.zhihu.com/p/639179724
(相关资料图)
MetaAI提出的能够“分割一切”的视觉基础大模型SAM提供了很好的分割效果,为探索视觉大模型提供了一个新的方向。
虽然sam的效果很好,但由于sam的backbone使用了vit,导致推理时显存的占用较多,推理速度偏慢,对硬件的要求较高,在项目应用上有很大的限制。
也看到一些研究在尝试解决这个问题。
其中一个是清华团队的Expedit-SAM,对模型进行加速,论文结果最多可以提速1.5倍。主要思路是用2个不需要参数的操作:token clustering layer和token reconstruction layer。token clustering layer通过聚类将高分辨率特征转到低分辨率,推理时用低分辨率的进行卷积等操作,这样可以加速推理时间;token reconstruction layer是将低分辨率特征重新转回高分辨率。个人测试好像没有明显提升,不过已经打开了sam推理加速的思路。
最近看到FastSAM,论文结果最快提出50倍,参数更少,显存占用减少,适合应用部署。
web demo: FastSAM - a Hugging Face Space by An-619
预训练模型
fastsam-x
fastsam-s
1.论文解析
1.1 论文核心
以yolov8-seg的instance segmentation为基础,检测时集成instance segmentation分支。
(1)point prompt:点prompt用点和实例分割输出的mask进行匹配。和sam一样,利用前景点/背景点作为prompt。如果一个前景点落在多个mask中,可以通过背景点进行过滤。通过使用一组前景/背景点,能够在感兴趣的区域内选择多个mask,然后将这些mask合并为一个mask,用于完整的标记感兴趣的对象。此外,利用形态学操作来提高掩模合并的性能。
(2)box prompt:与实例分割输出的mask的box和输入的box进行iou计算,利用iou得分过滤mask。
(3)text prompt:利用clip模型,利用图像编码和文本编码直接的相似性,提取分数较高的mask。因为引入clip模型,text prompt的运行速度比较慢。
1.2 实验结果
1.3 不足之处
2.应用测试
2. 适配超20+芯片厂商,昇思MindSpore大模型之路走南闯北
3. OpenAI计划推出大模型商店,开发者可以上架产品了!
4. Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙
4. PromptAppGPT重磅更新!AI助手0门槛开发+运行:几十行代码即可实现AutoGPT
项目网站:https://promptappgpt.wangzhishi.net/
项目代码:https://github.com/mleoking/PromptAppGPT