大模型机器视觉新突破,SAM进化版SAV来了:分割一切视频!开源!
2023/7/19 9:45:20

 今年4月,Meta的AI模型Segment Anything Model(SAM,分割一切模型)发布,一键轻松实现图像分割,难怪网友直呼太强。
 
  SAM模型之所以在计算机视觉领域产生重要影响,是因为图像分割是许多任务中的基础步骤,比如自动驾驶、人脸识别、车牌识别等都有用到。
 
  在这些应用过程中,从目标检测、分割再到识别的整个流程,由算法自动完成,无需人工干预,而SAM模型正是专攻其中的图像分割。
 
  虽然SAM是图像分割的代表性模型,但不可避免存在以下短板:
 
  1.它能够处理图片分割,但是不能处理视频,尤其是不能对视频里边移动的物体做连续追踪。
 
  2.它能分割,但是并不认识所分割的区域到底是什么。
 
  3.它存在过度分割的问题,经常把一个完整的物体分割成不同的部分,而人是把目标作为整体看待的。
 
  一、SAV模型
 
  现在,云创数据(835305.BJ)在SAM和YOLOv8的基础上,“分割一切”模型的进化版——分割一切视频Segment-Any-Video(SAV)来了,进一步丰富了计算机视觉成果。
 

图片SAV模型(图片来源:SAV)
 
  作为一种新的图像、视频分割方法,SAV可以在图片或视频中实现全自动标注,一键分割物体。
 
  同时,基于Zero-Shot Transfer(零样本迁移),SAV无需额外训练,即使是训练库中没有的图片,也可以实现轻松分割。
 
  与SAM相比,SAV升级主要表现在以下方面:
 
  1.既可以分割图片,也可以分割视频;
  2.可以明确目标对象并打标签;
  3.可得到语义上完整的目标区域。
 

图片SAV与SAM图像分割对比结果(图片来源:SAV)
 
  从上图可以看出,SAV将巴士、小汽车等分割成一个个完整的区域,而SAM是把这些单个的物体又分割为不同的区域。
 
  除了图片以外,通过SAV,视频也可以进行清晰的目标分割和追踪。
 
  二、示例
 
  现在,我们在网页版 demo (http://sav.cstor.cn)上体验一下SAV,可以直观地感受SAM和SAV两者的差异。
 
  在首页可任意选择一张示例图片,也可从本地上传图片,然后点击Segment按钮,就可以同时得到SAM和SAV的结果。
 

demo首页示例图片(图片来源:SAV)
 


图片分割结果:左侧为SAM,右侧为SAV(图片来源:SAV)
 
  如果需要观察某个实例的详细效果,鼠标放置原图,移动鼠标即可。
 


图片移动鼠标查看详细分割效果(图片来源:SAV)
 
  在上图中,由SAV分割的两只小狗是完整而独立的色块,并不像左边分割结果所展示——小狗耳朵颜色和身体部分颜色不一,不是完整的目标对象。同时,SAV分割的两只小狗都打上了“dog”的标签。
 
  需要说明的是,本项目只关注算法自动分割的应用场景,所以SAV无需人工输入点、曲线、矩形框等提示信息。
 
  更多示例如下:
 

 

 


图片图片分割结果对比(图片来源:SAV)
 
  三、原理
 
  如前所述, SAM的自动分割不返回标签信息,并且一个实例(例如,一辆车)可能会被拆分成多个小区域。
 

自动分割模式下,SAM不返回标签信息,车辆被分割成多个区域(图片来源:SAM)
 
  基于此,研发团队在SAM的基础上加入YOLOv8检测模型,YOLOv8返回的结果中包含目标框、类别及置信度,目标框可作为提示信息输入到SAM,类别名称即为标签,因此SAM加YOLOv8可有效地解决上述问题。
 
  该方法同样可用于视频分割任务,与处理单幅图像不同的是,除了分割,我们通常更关心目标的运动轨迹、目标重识别,以及如何实现一键抠视频等。因此研发团队在SAM和YOLOv8的基础上加入跟踪算法,持续关注感兴趣的目标,这样比单纯地分割每帧图像更有实际意义。
 
  考虑到使用

下一页
返回列表
返回首页
©2024 深度学习世界--关注深度学习应用,提供深度学习资料下载和技术交流 电脑版
Powered by iwms