添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

论文标题:Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images

代码:https://github.com/Cuogeihong/CEASC

本文文着眼于解决在无人机平台上进行目标检测所面临的挑战,即需要在有限的计算资源下实现高准确性和低延迟的检测。传统的深度学习方法通常过于复杂,难以适应无人机硬件的资源限制,因此需要一种更高效的方法。

本文提出了一种全新的目标检测优化方法——全局上下文增强自适应稀疏卷积(Global Context Enhancement for Faster Object Detection,CEASC),旨在在无人机图像上实现高效目标检测。CEASC方法不仅仅适用于无人机图像目标检测,而且可以轻松扩展到各种现有目标检测器,例如RetinaNet和GFL V1,以显著降低计算成本,同时保持竞争性的准确性。

  • 我们提出了一种基于稀疏卷积的全新检测头优化方法,即CEASC,以实现无人机的高效目标检测。这个方法为解决无人机平台上的目标检测问题提供了一种创新的途径。

  • 我们引入了一种上下文增强稀疏卷积层和自适应多层掩码方案,用于优化掩码比例,实现检测准确性和效率之间的最佳平衡。通过捕获全局上下文信息,我们能够更好地处理前景区域的波动,从而改进了目标检测的性能。

  • 我们对所提出的方法进行了广泛的评估,将CEASC集成到各种最新的目标检测器(例如RetinaNet和GFL V1)中,并在两个重要的无人机图像基准数据集上进行了测试。这些实验结果表明,我们的方法显著降低了计算成本,同时保持了竞争性的准确性,为无人机图像目标检测提供了一种有效的解决方案。

通用目标检测

通用目标检测方法可以分为基于锚点和不基于锚点的检测器两类,具体取决于它们是否使用预设的滑动窗口或锚点来定位目标提议区域。

基于锚点的检测器,如R-CNN、FasterRCNN和Mask RCNN,通常生成提议区域,然后在这些区域内进行目标对象的分类和定位。而一阶段检测器(如RetinaNet和GFL V1/V2)则可以直接在整个特征图上进行对象的分类和定位,将锚点视为最终的边界框目标。

不基于锚点的检测器,如Centernet、FCOS和FSAF,它们使用效率更高的替代方法(如中心约束或对象热图)替代了传统锚点,尽管这些方法取得了一定的进展,但将它们应用于无人机图像上并不那么直接。

航拍图像上的目标检测

对于在无人机图像上进行目标检测,目前的研究通常遵循一个粗到精的流程,首先使用粗检测器定位大尺度实例和包含密集分布小目标的子区域,然后在这些区域上进一步应用精细检测器以找到小尺度实例。尽管这些方法能够实现高精度的检测,但需要对同一图像进行多次推理,不够高效,限制了它们在资源有限的无人机平台上的应用。

目标检测的轻量级模型

随着深度学习的发展,目标检测模型的复杂性急剧增加,导致计算成本高昂和推理速度缓慢。为了加速计算,已经提出了一些解决方案,包括神经架构搜索、网络剪枝、知识蒸馏和轻量级模型设计。在这些方法中,轻量级模型设计因其在速度和准确性之间具有良好的潜力而在无人机目标检测中处于领先地位。一些方法专注于轻量级主干网络,代表性的有MobileNet和ShuffleNet,它们使用深度可分离卷积和分组卷积等技术。还有一些方法专注于轻量级检测头的设计,例如YOLO系列中的YOLO v6和YOLO v7。最近,稀疏卷积作为一种加速推理的有希望的方法出现了,一些研究已尝试将稀疏卷积应用于检测头,但它们通常使用固定的掩码比例,没有充分捕获全局上下文,因此在无人机图像上优化检测结果方面存在不足。

CEASC网络的整体目标是针对FPN中不同层次的基础检测器来优化检测头,通过开发一种上下文增强稀疏卷积(CESC)来实现,该方法通过一个轻量级的卷积模块和一个上下文增强组归一化(CEGN)层将焦点信息与全局上下文集成在一起。

具体步骤如下:

1. 稀疏卷积(Sparse Convolution): CEASC首先采用稀疏卷积技术,它通过学习一个稀疏掩码来仅在前景区域执行卷积操作,从而降低计算成本。具体公式如下所示:

根据公式(1),仅在掩码值为1的区域在推理过程中参与卷积运算,从而降低了总体计算成本

2. 上下文增强(Context Enhancement): 为了弥补稀疏卷积可能导致的上下文信息损失,CEASC引入了上下文增强技术。它使用全局上下文信息,将其融合到稀疏卷积中,以增强特征表示并提高检测性能。具体公式如下所示:

为了进一步减轻 SC 中的信息丢失并使训练过程更加稳定,我们在训练期间除了稀疏卷积外还保留了正常的密集卷积,生成一个在完整输入特征图上卷积的特征图Ci,j。然后,我们使用Ci,j通过优化均方误差(MSE)损失来增强稀疏特征图Fi,j,具体公式如下:

最后,在激活层之前采用了一个残差结构,将Gi添加到Fi,j中

3. 自适应多层掩码(AMM): 为了自适应地控制激活比率(或掩码比率),CEASC引入了AMM方案。AMM首先基于地面实况标签估计每个FPN层的最佳掩码比率,然后通过优化损失来迫使生成具有足够掩码比率的掩码,以平衡准确性和效率。

第i层FPN层的最佳激活比率 Pi 估计为:

为了引导网络自适应地生成一个具有足够掩码比的掩码,我们采用了以下损失:

通过添加传统的检测损失Ldet,总体训练损失如下:

其中包括传统的目标检测损失、掩码生成损失和AMM损失。

CEASC与四种流行的基础探测器结合的性能:

与SOTA的比较:

掩模比率对计算成本和准确性的影响

不同层次的特征金字塔网络(FPN)中最佳掩模比率的变化:

以GFL V1为基础探测器,CESC和AMM的消融结果:

对CEASC中的不同组成部分分别进行评估的结果:

评估CE-GN的性能:

点卷积与其他技术的对比:

不同FPN层次上的AMM效果:

本文提出了一种新的即插即用检测头优化方法,即CEASC,来对无人机图像进行目标检测。它开发了具有CE-GN的CESC模块,这大大补偿了全局环境的损失,并稳定了前景的分布。此外,它还设计了AMM模块,以自适应地调整不同前景区域的掩模比例。在VisDrone和UAVDT上获得的大量实验结果表明,CEASC显著地加速了各种基础探测器的推理速度和竞争精度。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

论文标题:Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images代码:https://github.com/Cuogeihong/CEASC导读本文文着眼于解决在无人机平台上进行目标检测所面临的挑战,即需要在有限的计算资源下实...
自适应 卷积 神经 网络 是一种 用于 处理图数据的深度学习模型。与传统的图 卷积 神经 网络 不同, 自适应 卷积 神经 网络 能够根据输入图的结构自动调整 卷积 操作的权重。 传统的图 卷积 神经 网络 在进行 卷积 操作时使用固定的权重矩阵,这对于 具有 不同图结构的数据可能不是最优的选择。 自适应 卷积 神经 网络 通过引入可学习的权重矩阵,使得模型能够根据具体的输入图结构动态地调整权重,从而更好地捕捉图数据中的特征。 自适应 卷积 神经 网络 通常由多个图 卷积 层组成,每个图 卷积 层包含一个 自适应 权重矩阵和一个非线性激活函数。在每个 卷积 层中, 自适应 权重矩阵根据输入图的结构和节点特征自动调整,然后通过 卷积 操作将节点特征传播到相邻节点,并通过激活函数进行非线性变换。 自适应 卷积 神经 网络 在图分类、节点分类和图生成等任务中取得了较好的性能,能够有效地处理 具有 复杂结构的图数据。这种 网络 模型的主要优点是能够自动学习权重矩阵,无需手动设定和调整,从而提高了模型的灵活性和泛化能力。