【AI简报20230626】Midjourney5.2震撼发布!AI助手0门槛开发+运行-全球视讯

面包芯语   2023-06-26 19:35:27

AI 简报 20230626 期

1. 比sam快50倍的通用视觉模型fastsam(Fast Segment Anything)

原文:https://zhuanlan.zhihu.com/p/639179724


(相关资料图)

MetaAI提出的能够“分割一切”的视觉基础大模型SAM提供了很好的分割效果,为探索视觉大模型提供了一个新的方向。

虽然sam的效果很好,但由于sam的backbone使用了vit,导致推理时显存的占用较多,推理速度偏慢,对硬件的要求较高,在项目应用上有很大的限制。

也看到一些研究在尝试解决这个问题。

其中一个是清华团队的Expedit-SAM,对模型进行加速,论文结果最多可以提速1.5倍。主要思路是用2个不需要参数的操作:token clustering layer和token reconstruction layer。token clustering layer通过聚类将高分辨率特征转到低分辨率,推理时用低分辨率的进行卷积等操作,这样可以加速推理时间;token reconstruction layer是将低分辨率特征重新转回高分辨率。个人测试好像没有明显提升,不过已经打开了sam推理加速的思路。

最近看到FastSAM,论文结果最快提出50倍,参数更少,显存占用减少,适合应用部署。

web demo: FastSAM - a Hugging Face Space by An-619

预训练模型

fastsam-x

fastsam-s

1.论文解析

1.1 论文核心

以yolov8-seg的instance segmentation为基础,检测时集成instance segmentation分支。

(1)point prompt:点prompt用点和实例分割输出的mask进行匹配。和sam一样,利用前景点/背景点作为prompt。如果一个前景点落在多个mask中,可以通过背景点进行过滤。通过使用一组前景/背景点,能够在感兴趣的区域内选择多个mask,然后将这些mask合并为一个mask,用于完整的标记感兴趣的对象。此外,利用形态学操作来提高掩模合并的性能。

(2)box prompt:与实例分割输出的mask的box和输入的box进行iou计算,利用iou得分过滤mask。

(3)text prompt:利用clip模型,利用图像编码和文本编码直接的相似性,提取分数较高的mask。因为引入clip模型,text prompt的运行速度比较慢。

1.2 实验结果

1.3 不足之处

2.应用测试

2. 适配超20+芯片厂商,昇思MindSpore大模型之路走南闯北

3. OpenAI计划推出大模型商店,开发者可以上架产品了!

4. Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙

4. PromptAppGPT重磅更新!AI助手0门槛开发+运行:几十行代码即可实现AutoGPT

项目网站:https://promptappgpt.wangzhishi.net/

项目代码:https://github.com/mleoking/PromptAppGPT

最新供应

更多