首页>平台建设成果一、研究背景
目标检测在自动驾驶和公共安全等视觉应用中发挥着至关重要的作用。然而,在精心整理的数据集(源域)上训练的检测器在部署到真实环境(目标域)时往往会出现性能退化 。为了解决这个问题,域适应目标检测(DAOD)被提出。近年来,诸如DINOv2等大规模视觉基础模型(VFMs)的高速发展为该领域注入了新活力,它们在捕获域不变特征方面表现出色。但若只依赖大模型,由于其知识并非为特定目标域定制,会限制学生模型对目标域的适应能力 。因此,如何将大模型的泛化知识与教师模型的特定领域知识相结合,以指导学生模型在目标域中的学习,成为了一个亟待解决的难题 。
二、问题分析
本文深入分析了现有DAOD任务中存在的两个核心挑战:
· 闭环框架的内部知识局限:传统的教师-学生模型通过伪标签进行自训练,但由于其轻量级骨干网络的固有局限性,极易受到域鸿沟的干扰,导致产生嘈杂的伪标签,最终造成次优的适应性能 。
· 大模型泛化知识与特定域知识的脱节:如图1所示,纯粹基于VFMs的方法虽然能利用其离线生成的标签提供全局指导,但缺乏对特定目标域属性(如大雾遮挡下的汽车推断)的深入捕捉能力 。
图1 检测结果的可视化。我们使用不同的方框颜色来表示一致和单侧检测结果。
专家模型专注于领域不变的线索,如对象轮廓和语义,而教师模型专注于特定领域的属性。
我们的框架利用教师和专家模型的互补优势,生成高质量的协作伪标签,从而更好地教学生模型适应目标领域。
三、技术方案
为了解决上述问题,本文提出了专家-教师-学生协同学习(ETS)算法,包含以下两个核心技术模块 :
第一个核心模块是专家-教师协同教学(ETCT)模块。 该模块旨在整合专家和教师模型的检测结果,以生成高质量的协作伪标签 。具体而言,模块首先在专家和教师模型的伪标签之间进行检测匹配,将它们分为一致检测、不一致检测和单边检测三类 。对于一致检测,通过置信度进行边界框融合以提升定位质量 ;对于不一致检测,基于置信度差异阈值重新分配类别以减少分歧 ;对于单边检测,则选择性地保留高置信度目标,最大限度地保留泛化知识和特定域知识 。最终生成的协同伪标签为学生模型提供了更稳健的监督 。
第二个核心模块是专家-教师联合巩固(ETJC)模块。 该模块旨在通过原型对齐拉近类别特征空间,巩固学生模型的泛化和适应能力 。模块为每个模型构建了轻量级的原型网络,提取类别原型 。通过约束学生模型的目标域原型与专家模型、教师模型的原型保持一致,使学生模型既能继承大模型的视觉泛化表示,又能模仿教师模型的深层特征 。此外,学生模型还通过跨域原型对齐(对齐其自身的源域和目标域原型)来增强域不变特征的提取能力 。
四、实验验证
本文在 Pascal VOC to Clipart1k、Cityscapes to BDD100k 和 Cityscapes to Foggy Cityscapes 三个基准数据集上进行了全面的实验评估 。实验评估指标为平均精度(mAP) 。实验结果表明,ETS算法在所有数据集上均显著超越了现有的SOTA方法 。特别是在从小规模到大规模的适应任务(Cityscapes to BDD100k)中,ETS达到了49.8%的mAP,以2.0%的优势大幅领先于当前的SOTA方法DT 。消融实验和特征分布的可视化(t-SNE)也进一步证实了ETS中各个模块的有效性,证明其能有效提取域不变图像特征,并成功弥合域鸿沟 。
表1 不同方法Pascal VOC到Clipart1k(P→Cl)上的结果。

表1中是真实到艺术风格迁移。在此任务中,ETS 显著超越了现有 SOTA 方法 CDMT(提升 1.3%)和 SEEN-DA(提升 1.1%) 。与传统的教员-学生架构(如 AT 和 CMT)相比,ETS 分别实现了 3.3% 和 2.0% 的巨大提升,有力证明了将专家模型引入该架构的必要性 。
表2 不同方法在Cityscapes到BDD100k (C→B)上的结果。
表2中是小规模到大规模场景的迁移。面对极具挑战性的城市场景跨度,ETS 达到了 49.8% 的 mAP,以 2.0% 的绝对优势大幅领先当前最先进的 DT 算法 。得益于视觉基础模型(VFMs)的泛化知识,ETS 能够高效区分“摩托车”与“自行车”等极易混淆的类别 。
表3 不同方法在Cityscapes to Foggy Cityscapes (C→F)上的结果。

表3是正常到恶劣天气的迁移。在模拟大雾天气的场景中,ETS 取得了 56.2% 的最佳 mAP 。在“公交车”、“火车”等稀有类别上的显著提升,不仅验证了 VFM 泛化知识迁移的成功,更证明了专家与教师协同学习机制在恶劣环境下的鲁棒性 。
表4 不同组件的消融实验。

如表格4所示,实验逐步拆解了 ETS 的各个模块。在基线模型(mAP仅为 36.4%,出现训练崩溃)的基础上,ETCT 模块引入的“一致性检测”成功修正了优化方向,带来了 7.5% 的性能飞跃 。随后加入的“单边检测”保留了互补知识,进一步提升 4% 。在特征层面,ETJC 模块依次加入跨域、师生及专家-学生原型对齐后,模型性能稳步攀升至 49.8%,证实了双层协同策略的闭环优势。
图 2 与其他检测方法的定性分析
如图2的可视化所示,与完全摒弃教师模型的 DT 方法相比,ETS 成功保留了由教师模型提炼的特定领域知识。例如,在浓雾遮挡的区域,ETS 依然能够精准地推断并定位出隐藏的汽车,展现出极强的抗干扰与环境适应能力 。

图 3 特征空间分布 (t-SNE)
如图3所示,特征分布的可视化清晰地揭示了模型的进化过程。基线模型未能跨越域鸿沟,导致源域与目标域特征严重混淆 。而在 ETS 框架下,学生模型的特征分布在训练过程中逐渐向专家和教师模型靠拢、融合,成功提取了高质量的域不变图像特征,从根本上弥合了数据分布差异 。
五、技术创新与贡献
本文立足于目标检测模型在跨域部署时面临的性能退化问题,旨在让轻量级检测器既能具备大模型的泛化能力,又能深入适应特定目标域 。基于此,创新性地聚焦于域适应目标检测(DAOD)任务中的教师-学生架构瓶颈,提出了一种全新的专家-教师-学生协同学习(ETS)框架 。在技术层面,本文实现了三大核心创新:首先,设计了专家-教师协同教学(ETCT)模块,通过将专家模型与教师模型的伪标签精细划分为一致、不一致和单边检测,并采用基于置信度的融合与选择机制,协同生成了高质量的伪标签,为学生模型提供了更为稳健的标签级监督 。接着,提出了专家-教师联合巩固(ETJC)模块,在多模型间构建轻量级原型网络并引入类别原型对齐机制,促使学生模型在特征表示级别全面继承大模型的视觉泛化特征和教师模型的深层目标域特征 。最后,该框架巧妙地以零额外训练成本的方式引入预训练的大规模视觉基础模型(VFMs)作为专家,其伪标签生成和原型提取均在离线状态下完成,在不增加任何额外训练计算成本的前提下,显著提升了域适应性能,为解决跨域目标检测难题提供了高效的新范式 。