MULTISCALE DOMAIN ADAPTIVE YOLO FOR CROSS-DOMAIN OBJECT DETECTION

abstract

领域自适应在解决许多应用遇到的领域转换问题方面发挥了重要的作用。这个问题是由于训练用的数据和实际测试的真实场景数据的分布差异造成的。在本文中，我们介绍了一种新的多尺度域自适应YOLO（MS-DAYOLO）框架，该框架在最近引入的YOLOv4对象检测器的不同尺度上使用多个域自适应路径和相应的域分类器来生成域不变特征。我们的实验表明，当使用所提出的MSDAYOLO训练YOLOv4时，以及当在代表自动驾驶应用的挑战性天气条件的目标数据上进行测试时，物体检测性能显著提高。

introduction

在正常天气训练，在复杂环境测试，这就存在一个域偏移。最近，由于域偏移，域自适应已被用于提高对象检测的性能[9]。它试图使用来自源域的标记数据和来自目标域的未标记数据来学习鲁棒的对象检测器。文献中的大多数领域适应方法都采用对抗性训练策略[10]。特别地，域分类器被优化以识别数据点是来自源域还是目标域，而对象检测器的特征提取器被优化以混淆域分类器。该策略使特征提取器学习域不变特征。

Method

目标是将域自适应应用于F1,F2,F3三个特征，使它们在不同尺度上对域偏移具有鲁棒性，从而使它们在基于域自适应的训练中收敛于域不变性。

域自适应网络

所提出的域自适应网络只在训练期间使用用来学习域不变性特征。YOLOv4和DAN（Domain Adaptive Network for YOLO）是端到端训练的。我们提出的框架不会增加推理时的复杂性，这对于自动驾驶是关键性的因素。DAN使用输入到颈部的主干的三个不同的尺度特征。它有几个卷积层来预测领域类别。然后，使用二进制交叉熵损失：

ti是第i张训练图片的真实标签，ti=1代表源域，ti=0代表目标域。p_i^(x,y)是在特征图的位置（x，y）处的第i个训练图片的预测域类概率。DAN经过优化，通过最大限度地减少这种损失来区分源域和目标域。另一方面，对主干进行优化，以最大限度地提高学习域不变特征的损失。因此，对于这两个域，主干的特征应该是不可区分的。因此，这将提高目标域的对象检测性能。为了解决联合最小化和最大化问题，我们采用了对抗性学习策略。我们通过使用梯度反转层（GRL）来实现这个Backbone和DAN网络之间互相矛盾的目标。GRL是一个双向算子，用于实现两个不同的优化目标。在前馈方向上，GRL充当识别算子。当在执行局部反向传播没有DAN时，导致了最小化分类误差的标准目标。另一方面，对于向骨干网络的反向传播，GRL变为负标量（λ）。因此，在这种情况下，它导致二进制分类误差最大化；这种最大化促进了主干生成域不变特征。另一方面，对于向骨干网络的反向传播，GRL变为负标量（λ）。因此，在这种情况下，它导致二进制分类误差最大化；这种最大化促进了主干生成域不变特征。
为了计算检测损失（Ldet）[3]，仅使用源图像，因为它们用地面实况对象进行了注释。因此，YOLOv4的所有三个部分（即脊椎、颈部和头部）都通过最小化Ldet进行了优化。另一方面，使用源标记图像和目标未标记图像来计算域分类损失（Ldc），该损失用于通过最小化DAN来优化DAN，并通过最大化来优化主干。因此，Ldet和Ldc都用于优化主干。换言之，通过最小化以下总损失来优化主干：
其中λ是GRL的负标量，它平衡了检测损失和域分类损失之间的权衡。事实上，λ控制着DAN对主干的影响。

DAN 结构

与在域自适应更快R-CNN架构[11]中仅对特征提取器的最终尺度应用域自适应不同，我们分别为三个尺度开发了域自适应，以解决梯度消失问题。
换言之，由于梯度消失问题，仅将域自适应应用于最终尺度（F3）不会对先前尺度（F1和F2）产生显著影响，因为它们之间存在许多层。因此，我们采用了一种多尺度策略，通过三个相应的GRL将主干的三个特征F1、F2和F3连接到DAN，如图2所示。对于每个尺度，GRL之后有两个卷积层，第一个将特征通道减少一半，第二个预测域类概率。最后，使用领域分类器层来计算领域分类损失。

实验

训练数据包括两组：具有图像及其注释（边界框和对象类）的源数据和不具有注释的目标数据。每个批次有64个图像，其中32个来自源域，32个来自目标域。基于先前的工作[11，12，15]和我们的经验，我们为所有实验设置λ=0.1。