华为诺亚实验室：用图结构构建视觉骨干网络架构-MTV学习库

介绍

在计算机视觉领域，骨干网络一直是特征提取的重要组成部分。卷积网络（CNN）长期以来一直是视觉任务的标准。近年来，基于注意力机制和全连接层的MLP网络也开始在计算机视觉领域出现。与现有主流CNN模型相比，基于MLP或MLP的模型在视觉任务上也表现出了良好的性能。直到现在，谁是更好的视觉骨干网络仍然是一个探索性和争议性的话题。

传统的卷积网络将图像视为矩阵或网格，通过滑动窗口聚合邻域像素或特征点；视觉或MLP将输入图像划分为若干图像块以形成序列，并使用注意力机制或全连接层处理序列关系，如图1所示。网格或序列表示方法对于图像来说不够灵活。例如，一个人通常由头部、四肢和躯干组成。这些部分之间有一定的联系，是一种不规则、变化的格局。

图 1：表示图像的 3 种方法。

为了更好地表示图像，本文提出使用图结构（Graph）来分析图像。将图像划分为若干图像块，每个图像块作为一个节点来构建图结构。随后提出使用图神经网络进行图像识别等任务，并首次构建了视觉GNN，简称ViG，如下图2所示。

图 2：视觉图神经网络 ViG 架构。

直接使用原始的GNN在图像任务中会存在过度平滑的问题，即随着网络的加深，节点特征会变得越来越相似。为了缓解这个问题，ViG引入了前馈神经网络FFN模块来增强特征变换能力和特征多样性。通过基本的图卷积模块和FFN模块，作者构建了公式和金字塔的ViG网络架构。基准测试和下游任务的实验证明了这种方法在视觉任务上的优越性。例如，ViG-S仅使用4.5G FLOPs就实现了82.1%的top-1准确率，远高于计算量相近的Swin和Swin。

方法

使用图形结构表示图像

图像预处理主要将2D图像转换为图结构。首先将图像均匀划分为若干图像块，每个图像块通过简单的映射转换为特征向量。

.这里每个图像块特征被视为一个节点，即

，对于每个节点，作者找到它的K个最近邻居

，然后连接两者之间的一条边，构建一个完整的图结构

。

图卷积

图卷积层可以通过聚合相邻节点的特征来在节点之间交换信息。具体来说，图卷积运算如下：

聚合操作通过聚合相邻节点的特征来计算节点的表示，更新操作用于更新聚合后的节点特征。在实际部署中，作者使用了max-graph卷积：

增强节点多样性

如果直接堆叠图卷积构建可视化图网络，由于图像块的相似性以及图卷积的聚合机制，会出现节点过度平滑的现象。也就是说，随着网络的加深，节点特征会变得越来越相似。。如下图3所示，在原始图像识别任务中，节点特征的多样性会逐渐丧失。为了缓解这个问题，ViG引入了前馈神经网络FFN模块和更多的线性变换来增强特征变换能力和特征多样性。更具体的理论证明请参考原文附录。

作者在图卷积之前和之后应用了线性层，将节点特征投影到同一域中并增加特征多样性。在图卷积之后插入非线性激活函数，以避免多层退化为单层。升级后的模块称为模块：

为了进一步提高特征变换能力并缓解过度平滑现象，在每个节点上使用前馈网络（FFN）。 FFN 模块是一个简单的多层感知器，具有两个完全连接的层：

ViG 块由模块和 FFN 模块堆叠而成，用作构建网络的基本构建块。基于图像的图形表示和所提出的 ViG 块，可以为视觉任务构建 ViG 网络，如图 2 所示。相比之下，ViG 可以随着层的加深而保持特征多样性（图 3），从而学习更多判别性特征表示。

图 3：随着层数加深，节点特征多样性的变化。

ViG网络架构

通过堆叠L个ViG块，形成了作者的ViG网络结构。作者给出了两种网络架构：公式式和金字塔式，如下表所示。

表 1：ViG 网络结构参数。

表2：ViG网络结构参数。

实验

架构比较

作者在2012年的数据集上训练并验证了ViG模型。从下表可以看出，基于图神经网络的ViG的性能与基于CNN、MLP的其他模型相当甚至更好。 ViG-S达到80.4%的top-1准确率，这表明使用图结构表示有利于更灵活地提取图像主题结构信息以构建强大的特征表示。

架构比较

随着网络的加深，金字塔结构逐渐减小特征图的空间尺寸，并且可以利用图像的尺度不变特性来生成多尺度特征。高级网络常采用{}、Swin{Swin}、{}等金字塔结构。

作者将作者的金字塔ViG与表中代表性的金字塔网络进行了比较~\ref {tab:pvig sota}。作者的ViG系列可以超越或与包括CNN、MLP和. 这表明图神经网络可以很好地处理视觉任务，并可能成为计算机视觉系统的基本组成部分。

目标检测实验

为了验证ViG的泛化能力，将作者训练的ViG-S模型转移到COCO目标检测任务中。在Mask RCNN检测框架上，使用ViG作为主干网络来提取图像特征。下表比较了 ViG 与 Swin 和其他网络的迁移学习结果。由于其他网络的原因，ViG 整体表现出很强的泛化能力。

东屯延庆川北社区45号孙老师收卖废品、抹布、垃圾、库存、废品孙

总结

华为还是很厉害的

物联网

在这项工作中，作者研究了如何将图像表示为图结构数据，并利用图神经网络执行视觉任务。作者将图像分割成多个图像块，并将它们视为节点。基于这些节点构建图可以更好地表示不规则和复杂的对象。直接在图像的图结构上使用图卷积存在过度平滑和性能较差的问题。作者在每个节点内引入了更多的特征转换，以鼓励信息多样性。基于图像的图表示和改进的 ViG 块，作者构建了具有各向同性和金字塔结构的视觉 GNN（ViG）网络。

大量的图像识别和目标检测实验已经证明了这种ViG结构的优越性。作者希望 GNN 的这一开创性工作能够作为一般视觉任务的基本架构。

给这篇文章的作者打赏

相关文章

低密度脂蛋白胆固醇多高算是问题吗？需要干预和治疗

ai智能电话机器人源码AI的含义是人工智能，不是什么位代码

网络通不通、主机是否可达、路由是否可用？