起因, 目的:
- 项目来源: https://github.com/facebookresearch/segment-anything
- 项目目的: 图像分割。 提前图片中的某个目标。
- facebook 出品, 居然有 47.3k star!
思考一些问题
- 我可以用这个项目来做什么?
- 给一个图片, 进行分割, 如何提取出自己想要的内容?
- 别人用这个项目来做什么?
调试过程:
- 下载压缩包。 pip install -e .
- pip install opencv-python pycocotools matplotlib onnxruntime onnx
- 下载模型。 总共有3个模型。 我选最小的 358 MB
运行示例
- 查看 notebooks 里面的3个文件,示例写的很好。
- 换成自己的图片,更有趣一些!
- 如果图片太大,先进行缩小。 不然内存和显存都不够,很卡!
原始图片:
简单分割一下:
画图函数,我修改了示例中的画图函数
这里, take = 10 , 只选取10个即可。
其实,简单的图片, 3个 masks 就够了。
python
def show_anns(anns, take=10):
# 检查传入的注释列表是否为空
if len(anns) == 0:
return
# 对注释列表进行排序,按照每个注释的区域大小降序排列
sorted_anns = sorted(anns, key=(lambda x: x['area']), reverse=True)[:take]
# 获取当前的轴对象,用于绘图
ax = plt.gca()
# 关闭自动缩放,以确保绘制的图像不会因为数据的变化而改变大小
ax.set_autoscale_on(False)
# 创建一个全白的图像,其尺寸与第一个注释的分割区域相同
# 这里假设所有注释的分割区域尺寸是一致的
img = np.ones((sorted_anns[0]['segmentation'].shape[0], sorted_anns[0]['segmentation'].shape[1], 4))
# 将图像的 alpha 通道(透明度)设置为 0,表示完全透明
img[:,:,3] = 0
# 遍历排序后的注释列表
for ann in sorted_anns:
# 获取当前注释的分割区域
m = ann['segmentation']
# 为每个注释生成一个随机颜色的遮罩,透明度设置为 0.35
color_mask = np.concatenate([np.random.random(3), [0.35]])
# 将遮罩应用到图像上,覆盖对应的分割区域
img[m] = color_mask
# 在轴对象上显示图像
ax.imshow(img)
结论 + todo
图像相关的项目,需要显存。
masks = mask_generator.generate(image) # 运行这一步, gpu 用了 5.6G / 8.7G