1.queryȫ?景源景?Դ??
2.全景分割新标杆—Panoptic SegFormer
queryȫ??Դ??
编辑:好困
本文提出了一种基于全景分割的全场景图生成(PSG)任务。与传统的码全码基于检测框的场景图生成相比,PSG任务不仅要全面输出图像中的景源景所有关系,包括物体与物体、码全码物体与背景、景源景背景与背景之间的码全码web前端开发中级源码关系,还要用准确的景源景分割块来定位物体。PSG任务旨在推动计算机视觉模型对场景的码全码全面理解和感知,以更好地支持场景描述、景源景视觉推理等下游任务。码全码同时,景源景PSG数据集提供的码全码关系标注和全景分割也为解决当前图像生成领域对关系不敏感的问题创造了新的机遇。
目前,景源景大多数计算机视觉任务仍然只关注图像感知。码全码例如,景源景图像分类任务只需要模型识别图像中的物体类别。尽管目标检测和图像分割等任务要求找到物体的位置,但此类任务仍然不足以说明模型已经对场景有了全面深入的理解。
以下图1为例,如果计算机视觉模型只检测到中的人、大象、智能线源码栅栏、树木等,我们通常不会认为模型已经理解了,而该模型也无法根据理解做出更高级的决策,例如发出“禁止投喂”的警告。
事实上,在智慧城市、自动驾驶、智能制造等许多现实世界的AI场景中,除了对场景中的目标进行定位外,我们通常还期待模型对图像中各个主体之间的关系进行推理和预测。例如,在自动驾驶应用中,汽车需要分析路边的行人是在推车还是在骑自行车。根据不同的情况,相应的后续决策可能都会有所不同。而在智能工厂场景中,判断操作员是否操作安全正确也需要监控端的模型有理解主体之间关系的能力。
大多数现有的方法都是手动设置一些硬编码的规则。这使得模型缺乏泛化性,超卖源码难以适应其他特定情况。
场景图生成任务(SGG)旨在解决上述问题。在对目标物体进行分类和定位的要求之上,SGG任务还需要模型预测对象之间的关系。
传统场景图生成任务的数据集通常具有对象的边界框标注,并标注边界框之间的关系。但是,这种设置有几个固有的缺陷:(1)边界框无法准确定位物体;(2)背景无法标注。
因此,作者提出全场景图生成(PSG)任务,携同一个精细标注的大规模PSG数据集。
该任务利用全景分割来全面准确地定位对象和背景,从而解决场景图生成任务的固有缺点,推动该领域朝着全面和深入的场景理解迈进。
作者提出的PSG数据集包含近五万张coco的,并基于coco已有的全景分割标注,标注了分割块之间的关系。作者精细地定义了种关系,包括位置关系、常见的狄马克源码物体间关系、常见的生物动作、人类行为、交通场景中的关系、运动场景中的关系、以及背景间关系。
作者要求标注员能用更准确的动词表达就绝不用更模糊的表达,并且尽可能全地标注图中的关系。
作者通过下图的例子再次理解全场景图生成(PSG)任务的优势。
为了支撑提出的PSG任务,作者搭建了一个开源代码平台OpenPSG,其中实现了四个双阶段的方法和两个单阶段的方法,方便大家开发、使用、分析。
PSGFormer是基于双decoder DETR的单阶段方法。模型首先通过卷积神经网络backbone提取特征并加以位置编码信息作为编码器的输入,同时初始化一组用以表示三元组的queries。与DETR类似地,模型将编码器的输出作为key和value与表示三元组的queries一同输入解码器进行cross-attention操作。随后模型将解码完成的养羊源码每个query分别输入主谓宾三元组对应的预测模块,最后得到对应的三元组预测结果。
PSGFormer基于双decode的DETR的单阶段方法。模型通过CNN提取特征,加以位置编码信息输入编码器,同时初始化了两组queries分别代表物体和关系。接着在b)步骤里,模型基于编码器编码的信息,分别在物体解码器和关系解码器中通过cross-attention解码学习物体query和关系query。当两类query均学习完毕后,在c)中通过映射后匹配,得到成对的三元组query。最后在d)中通过预测头分别完成关于物体query和关系query的预测,并根据c)中的匹配结果得到最终的三元组预测结果。
PSGTR与PSGFormer都是在DETR的基础上进行扩展和改进的模型,不同的地方在于PSGTR用一组query对于三元组直接建模而PSGFormer则通过两组query分别对物体和关系建模,两种方法各有利弊,具体可参考论文中实验结果。
大部分在SGG任务上有效的方法在PSG任务上依旧有效。然而有一些利用较强的数据集统计先验,或主谓宾中谓语方向先验的方法可能没那么奏效。这可能是由于PSG数据集相较于传统VG数据集的bias没有那么严重,并且对谓语动词的定义更加清晰可学。因此,作者希望后续的方法关注视觉信息的提取和对本身的理解。统计先验可能在刷数据集上有效,但不本质。
相比于双阶段模型,单阶段模型目前能达到更好的效果。这可能得益于单阶段模型有关于关系的监督信号可以直接传递到feature map端,使得关系信号参与了更多的模型学习,有利于对关系的捕捉。但是由于本文只提出了若干基线模型,并没有针对单阶段或双阶段模型进行调优,因此目前还不能说单阶段模型一定强于双阶段模型。这还希望参赛选手继续探索。
相比于传统的SGG任务,PSG任务基于全景分割图进行关系配对,要求对于每个关系中主宾物体的id进行确认。相比于双阶段直接预测全景分割图完成物体id的划分,单阶段模型需要通过一系列后处理完成这一步骤。若基于现有单阶段模型进一步改进升级,如何在单阶段模型中更有效地完成物体id的确认,生成更好的全景分割图,仍是一个值得探索的话题。
最后,欢迎大家试用HuggingFace:
Demo:huggingface.co/spaces/E...
关于图像生成的展望
最近大火的基于文字输入的生成模型(如DALL-E 2)着实令人惊叹,但是也有研究表明,这些生成模型可能只是把文本中的几个实体粘合在一起,甚至都没有理解文本中表述的空间关系。
正巧,PSG数据集标注了基于mask的scene graph关系。作者可以利用scene graph和全景分割mask作为训练对,得到一个text2mask的模型,在基于mask生成更细致的。
因此,PSG数据集有可能也为注重关系的图像生成提供了潜在的解决方案。
P.S. 旨在激励领域共同探索全面的场景识别的“PSG Challenge”火热进行中,百万奖金等你来拿!Competition Link: cvmart.net/race//b...
全景分割新标杆—Panoptic SegFormer
公众号:将门创投
前一段时间的MaskFormer提出可以将分割任务看成是mask预测任务,Panoptic SegFormer可以认为是在MaskFormer的基础上进行改进的。
相比于MaskFormer主要有3两点改进:
1. backbone部分采用PVTv2,并且同时使用backbone的多尺度feature
2. 引入了location decoder,通过辅助的位置预测loss加快收敛
3. 提出mask-wise merge的策略来合并things和stuff
一、Overall architecture
Panoptic SegFormer整体框架如图所示。
先通过backbone抽取多尺度feature,然后送入transformer encoder编码,最后通过location decoder和mask decoder解码。训练阶段,先进行双边匹配得到每个query对应的label,location decoder输出预测位置和尺寸,mask decoder输出预测mask和类别;推理阶段,用mask-wise merge策略对预测结果去重。
下面详细讲一下location decoder、mask decoder和mask-wise merge部分。
Location Decoder
给定N个初始化queries,训练阶段,在location decoder后面添加一个辅助MLP来预测位置和尺寸,location decoder的输出称为location-aware queries;推理阶段,去除辅助MLP。这一个辅助loss,可以帮助网络快速收敛,每个query关注区域指向性更明确。
Mask Decoder
mask decoder将location decoder的输出location-wise queries当作query,和MaskFormer预测mask和类别不同的是,Panoptic SegFormer预测mask需要先将attention map拆分成A3,A4,A5,然后都上采样到H/8xW/8的分辨率,concat在一起得到A_fuse,最后通过1x1卷积得到mask预测结果。
Mask-Wise Merge
之前的分割去重,一般都是使用pixel-wise argmax策略,也就是重叠部分保留预测分数最大的类别。本文提出的mask-wise merge策略,对于重叠部分进行舍弃,上图是伪代码。
二、实验结果
从上表可以看出,Panoptic SegFormer比之前的算法收敛速度更快,效果更好。
可视化对比,Panoptic SegFormer预测结果更加sharp,并且由于mask-wise merge策略,实例之间的边缘更加清晰。
三、总结
之前的全景分割算法如Panoptic FCN和Panoptic-DeepLab都引入了位置辅助预测,在MaskFormer中引入位置预测是很自然的,这有利于query快速关注到合适的位置,帮助模型更好的收敛。
Panoptic SegFormer用了更好的backbone(并且增加了多尺度特征),更好的位置先验,更好的后处理,Panoptic SegFormer做的相当完整了,全景分割想再进一步提升感觉非常困难了。