自适应本地跨渠道交互: History
Please note this is an old version of this entry, which may differ significantly from the current revision.

在深度卷积语义分割网络中加入注意力模块,显著提升了网络性能。然而,现有的信道注意力模块以信道维度为重点,忽略了空间关系,导致位置噪声传染给译码器。

  • adaptive local cross-channel interaction
  • vector average pooling
  • attention mechanism

1. 引言

通过在像素级别分析图像,语义分割提供了比对象检测和图像分类更细致的识别,从而可以输出完整的场景信息。城市规划、土地资源管理、海洋监测和交通评估从遥感影像的语义分割处理中获益匪浅[1,2]。然而,遥感影像由于形状、位置、纹理等特征信息丰富,以及图像中地物表现出的高类内方差和高类间相似性,因此存在独特的处理挑战[3]。
传统的语义分割方法强调手动特征提取[4]。特征向量可以基于某些应用场景的手工制作规则获得。一旦场景被修改,重用这些提取的特征向量就具有挑战性。重复特征的提取是一个费力且耗时的过程。此外,传统语义分割的手工制作规则依赖于复杂的数学模型,这些模型不是数据驱动的,例如当前的方法。因此,传统语义分割方法的可理解性和泛化性存在局限性。最近,基于深度学习的语义分割技术已经显示出巨大的潜力。例如,FCN [5] 实现了一个完全卷积的语义分割网络,这是当前流行的语义分割方法的基线。U-Net[6]引入浅层和深层之间的跳跃连接,有效地重构了高级语义对象的底层空间信息,解决了对象边缘分割不准确的问题。编码器-解码器架构鼓励研究人员专注于更好地表示编码器中的像素特征的方法,以提高网络性能。ResNet [7] 就是这样一项工作,它扩展了网络深度以提取更高级的抽象特征。像DeepLab社区[8,9,10,11]开发的卷积网络一样,可以通过扩大感受野来完成多尺度任务。HRNet[12,13]在浅层和深层特征图之间保持密集的多层交互。类似地,U-Net++ [14] 通过用密集连接代替编码器和解码器之间的常规跳过连接,提高了语义分割的准确性。这些努力导致了深度学习在语义分割中的应用的增长。然后,研究人员开始通过引入注意力机制来优化基线语义分割网络的性能,使他们能够利用关键特征信息并消除特征图或像素的冗余,以加强特征表示。
注意力机制的有效性已被证明可用于多种任务[15,16],包括目标检测[17,18,19]和图像分类[20,21,22]。基于注意力机制的原理,语义分割领域的研究者开发了几种注意力模块,如通道注意力模块和空间注意力模块。这些模块通常被纳入语义分割架构中,以帮助提取某些通道和像素中的重要特征,从而提高分割精度[23]。通常,上述注意力模块是单独构建的,仅捕获沿特定通道或空间维度的特征。CBAM [24]注意力模块首次使用串联模式将通道注意力和空间注意力结合在一起,显著提高了分割精度[25]。然而,采用串联积分构建的模块可能会导致从通道注意力向空间注意力侧传输的误差,从而限制语义分割性能的进一步提高。研究人员还基于自注意力机制设计了关注通道和像素关系的注意力模块,该机制通过每个通道空间维度的加权和来表示核心信息[26]。换句话说,网络可以通过建立长程上下文关系来使用自注意力机制来提高语义分割网络的整体准确性[27]。然而,自注意力模块的复杂结构在训练成本和执行效率方面仍然存在挑战,使其难以支持大规模遥感应用[28]。

2. 注意力机制

注意力机制可以增强深度CNN获取更多判别特征的能力。通过在信道之间建立全局依赖关系来确定相应的权重,信道注意力模块SE[29]首次在信道维度中使用注意力机制成功地改进了网络对重要特征的表示。然而,空间背景没有被考虑在内。通过添加ECA [30]模块,进一步增强了通道注意力网络的有效性,该模块建立了本地通道的依赖性来学习关键权重。为了更好地捕获空间信息,并产生具有更宽卷积场的空间后果,CBAM中的空间注意力模块进行了特征图通道池化和降维。由于空间注意力模块对卷积的依赖性,它只能捕获位置上的局部依赖关系,而不能建立长距离依赖关系,因此存在一定的局限性。此外,以Transformer[31]为代表的像素关系自注意力机制已成为当前计算机视觉领域的新SOTA,并得到广泛认可和应用。在 DANet [26] 中,特征图通过三个卷积生成 Query、Key 和 Value 矩阵。然后使用这些矩阵来计算每个局部和全局位置的权重,以构建上下文信息。OCRNet[32]预先为每个类别创建一个描述区域,并通过计算每个像素与相应类别的描述区域的相似性来构建全局上下文信息。自注意力机制有效地建立了全局连接,但需要过多的计算,影响了网络推理效率。具体来说,使用特征图的 Query 和 Key 矩阵计算权重图的过程施加了 O(N2) (N = H × W × C、HWC分别表示特征图的高度、宽度和通道数) 自注意力模块的时间和空间复杂度,在处理大型遥感影像时给语义分割网络带来较大负担。

3. 遥感语义分割中的注意

通过集成注意力模块,用于图像解释的语义分割网络可以更好地表示特征、降低噪声并构建上下文信息,从而提高网络的整体分割精度。例如,在ENet[33]中,在网络的上采样阶段增加SE模块,为每个通道生成权重,以细化遥感图像的分割精度。在SE-UNet[34]中,卷积块从标准UNet中每层大小为3×3的两个卷积改为一个卷积加一个SE模块,以加强特征图的表示,从而增强UNet从卫星和航空图像中提取道路的能力。文献[35]提出了一种高效信道注意力(ECA)模块,并将其集成到UNet编码器中,优化了分割,提高了编码器的特征提取性能。通过在连接浅层和深层的快捷模块中添加ECA模块,使使用[36]中提出的RSIDNet对遥感图像进行去噪变得更加容易。它增强了浅层特征图的特征表示,减少了层带来的噪声,提高了分割精度。SCAttNet[25]中讨论了CBAM模块用于整合通道和空间注意力。该网络首先采用ResNet提取特征,以增强其对高分辨率遥感影像的分割能力。然后,它将它们输出到CBAM模块中,以构建本地上下文信息,并在通道和像素级别优化学习到的特征图权重。RAANet[37]通过嵌入CBAM模块和残差结构来构建一种新的残差ASPP模块,以提高语义分割网络的准确性。文献[38]中,利用CBAM中的空间注意力模块与构建通道和空间的坐标注意力模块并行设计了包含空间和通道的SCA注意力模块,以增强轻量级模型对遥感图像的检测。为了提高卷积神经网络表示不同物体与周围特征之间潜在关系的能力,MQANet[39]在模型中引入了位置注意力、通道注意力、标签注意力和边缘注意力模块,以此来扩展网络的感知场,并在标签中引入背景信息,从而获得全局特征。此外,自注意力机制已被用于遥感图像语义分割。举例来说,使用RSANet中的自注意力机制构建了一个区域注意力RSA模块[40]。首先,该模块为图像中分布的每个类别创建多个软对象区域,然后是区域描述符。然后,它评估特征图的像素与全区域描述符之间的相似性。在并行中测量的那些值将被视为初始特征图的权重。在文献[41]中,构建了一个涉及通道和空间的自注意力模块,通过相乘特征图的Query和Key矩阵来生成所有空间位置和通道关系的权重图,从而得到全局信息。该网络可能会获得更准确的分段结果,但复杂性和高硬件资源需求使其在实际部署中不经济。

This entry is adapted from the peer-reviewed paper 10.3390/rs15081980

This entry is offline, you can click here to edit this entry!
Video Production Service