首页>平台建设成果(二)问题分析
本文深入分析了CI-SFUDA任务中存在的两个核心挑战。
· 相似源域类别的知识对目标域类别表征学习的干扰:每个增量阶段的标签空间仅占据源域标签空间的一个子空间,无标注的目标数据的伪标签可能会被错误地分配至当前标签空间以外的相似源域类别,从而导致目标表征出现偏差。
· 新目标类知识对旧知识的冲击。在新目标类的适应过程中无法再访问先前学习到的数据,导致优化器会更新模型权重以适应新类特征和新类模式,造成旧类知识的灾难性遗忘。
(三)技术方案
为了解决上述问题,本文提出了多粒度类原型拓扑蒸馏(GROTO)算法,包含以下两个核心技术模块:
第一个核心模块是多粒度类原型自组织模块,如图1 所示,该模块旨在减轻相似源域知识对于目标类表征学习的干扰。首先采用混合知识驱动的正类挖掘策略,利用源域相似度和目标域概率两种累积分布,定位当前任务中同时存在于源域和目标域标签空间的正类,减轻模型中关于其它相似源类知识的干扰。接着采用正类目标特征自组织策略,先计算出代表类别中心趋势的粗粒度类原型和捕捉了详细分布信息的细粒度类原型,基于这些类原型,来为其它无标注目标域数据生成可靠的伪标签,并通过交叉熵损失和对比损失推动同类特征的紧凑和不同类特征的分离。
图1 多粒度类原型自组织模块示意图。通过挖掘正类来对齐标签空间,然后引入多粒度类原型来生成可靠的伪标签,并通过多个损失函数促进目标特征的自组织。
第二个核心模块是原型拓扑蒸馏模块,如图2所示,该模块旨在持续缓解新知识对旧知识的冲击。先利用源域和目标域的正类原型构建特征空间的拓扑结构。然后设计紧凑性损失和可分离性损失的点对点拓扑蒸馏策略,以使的目标域原型在特征空间中能够与对应的源域原型保持一致的拓扑关系。这种设计不仅能够利用源域的先验结构来指导新类学习,还能够通过全局的拓扑关系减轻目标域模型决策边界对于新类数据的过拟合,从而缓解模型对于旧类知识的遗忘。
图2 原型拓扑蒸馏模块示意图。该模块基于词汇在数据集中的出现频率计算静态注意力权重,从而强调不常见词汇的表示。
(四)实验验证
本文在 Office-31-CI、Office-Home-CI 和 ImageNet-Caltech-CI 三个基准数据集上进行了全面的实验评估。评估指标主要有两个,一是最终准确率,即在最后一个目标域增量阶段上训练完后的模型对于所有所学过的类别的分类准确率。二是阶段准确率,即在每个目标域增量阶段训练完后的模型对于当前增量类别的分类准确率,用于评估模型序列适应的能力。实验评估涵盖了性能对比、抗遗忘能力分析、模块有效性验证及可视化分析等多个维度。
表1 不同方法在 Office-31-CI 和 ImageNet-Caltech-CI 数据集上的最终准确率表现
表2 不同方法在 Office-Home-CI 数据集上的最终准确率表现
表1和表2报告了模型在Office-31-CI 、 ImageNet-Caltech-CI 和Office-Home-CI 三个数据集上的最终准确率表现,并将本文的GROTO算法与基线模型,以及现有的类增量域适应、类增量无监督域适应、无源无监督域适应以及无源通用域适应四类主流方法进行了对比 。如表1和表2所示,在三个基准数据集上,GROTO 在最终准确率指标上全面超越了所有对比方法,尤其是在极具挑战性的 ImageNet-Caltech 任务中,最终准确率的平均值大幅领先,证明了GROTO算法在CI-SFUDA任务下的优越性。
表3 不同方法在 Office-31-CI 和 Office-Home-CI 数据集上的阶段准确率表现
图3 GROTO 在 Office-Home-CI (R→C) 上新旧类别的准确率,以及不同方法在 Office-Home-CI (R→C) 的不同增量阶段中类别0到9的平均准确率。
为了能够全面反映出GROTO算法的抗遗忘能力,我们还报告了关于GROTO及其对比方法的详细结果,如表3和图3所示。表3记录了各个增量阶段的阶段准确率,与 DIFO 和 LEAD-B 等方法在后续阶段的性能急剧下降不同,GROTO 在所有增量阶段中均保持了稳定的性能,证明其能有效克服灾难性遗忘。图3中直观地展示了GROTO算法在新旧类别上的准确率变化曲线。左子图显示出GROTO在学习新类的同时,旧类的准确率几乎没有下降;右子图的平均准确率走势图则清晰地反映出,随着增量阶段的增加,其他方法的曲线呈下降趋势,而 GROTO 的曲线保持平稳,展现了其拥有较好的保留旧类知识的能力。
表4 GROTO 中不同损失函数、组件以及模块在 Office-31-CI 上的最终准确率指标的消融结果
表5 不同超参数在 ImageNet-Caltech-CI 数据集上的平均最终准确率的消融结果
为了验证GROTO算法中各部分的有效性,文中进行了全面的消融实验,具体结果如表4和表5所示。表4的消融实验结果表明,移除GROTO算法中的任何一个模块,都会导致模型最终准确率的下降,证实了所提出的各个模块能够互相协同地解决CI-SFUDA任务。表5分析了不同超参数对模型的影响,结果显示 GROTO 在不同参数设置下性能波动极小,具有良好的稳定性和鲁棒性。
图4 GROTO在Office-31-CI (A→D)的第一个增量阶段训练前,目标累积概率和与源域的平均相似度累积分布结果。
图5 不同方法在Office-31-CI (D→A) 部分类别上的目标特征分布
图6 原型拓扑蒸馏模块在Office31-CI (A→D)上对于GROTO的特征分布和决策边界影响的可视化图。
为了直观展示出GROTO算法中各个模块的效果,文中对每个模块进行了可视化的对比分析,如图4、图5和图6所示。图4展示了源域相似度与目标域概率的累积分布直方图。这一可视化结果验证了文中所提出的混合知识驱动正类挖掘策略的有效性,仅依赖单一指标容易遗漏正类(如类别"4"),而混合知识驱动的正类挖掘策略能够更加精准地定位当前增量阶段的正类,减轻模型中含有的其它相似的源类知识对于无标注目标数据可靠伪标签生成的干扰。图5通过 t-SNE可视化了特征的分布,相比于Source-only、ProCA-B 和 LEAD-B 出现的特征混淆,GROTO学习到的特征簇类间分离度更高。图6专门对比了有无原型拓扑蒸馏模块对于GROTO算法的特征和决策边界的影响。左子图显示在没有该模块时,旧类数据容易被错误划分到新类区域;右子图显示引入该模块后,决策边界更加精准,有效减少了新知识对旧知识的冲击,从而缓解了GROTO对于旧类知识的灾难性遗忘。
(五)技术创新与贡献
本文立足于视觉识别模型在无标注的动态场景下持续训练的迫切需求,旨在让模型像人类一样能够持续学习新知识,同时不遗忘旧知识。基于此,创新性地聚焦于类增量无源无监督域适应(CI-SFUDA)任务,其中,目标域数据以类别流的形式增量到达,且每个目标域增量阶段仅包含源域完整标签空间的一个子集,模型无法访问任何旧的有标注源域数据和已学过的无标注目标域数据。然而,这一任务面临着非共享类知识对于目标类表征学习的干扰,以及新目标类知识对于旧类知识干扰的双重挑战。为了应对这些挑战,在技术层面实现了三大技术创新。首先,创新性地结合了源域相似度累积和目标域预测概率累积两种分布信息来有效识别当前增量阶段中的正类,减轻了因标签空间不匹配导致的其它相似源类知识的干扰。接着,引入了粗粒度和细粒度的原型表示,使生成的伪标签更加可靠,并配合交叉熵与对比损失,实现了目标域特征的高质量自组织。然后,采用源域和目标域原型来构建源域和目标域特征空间的拓扑结构,计算紧凑性损失和可分离性损失,促使目标域的拓扑结构与源域保持一致,通过这种点对点的拓扑蒸馏让目标域模型在学习新知识的同时,能够利用源域的结构化知识减轻目标域新模型的决策边界对于新类数据的过拟合。