首页>平台建设成果一、研究背景
近年来,CLIP、EVA-CLIP 等视觉-语言模型通过大规模图文对比学习,已经具备很强的零样本识别能力,并在多种下游任务中展现出良好的迁移性能。为了将这类大模型高效适配到具体任务中,提示调优成为一种重要方案。它不需要更新整个模型参数,只需学习少量提示 token,便能在较低成本下完成任务适配,同时尽量保留预训练模型原有的泛化能力。但在真实场景中,数据往往并不是均衡分布的。许多类别只有很少的训练样本,形成典型的长尾分布。在这种情况下,现有提示调优方法对头部类别更敏感,优化过程容易被样本数量更多的头类主导,而样本稀缺的尾类则难以学到清晰、可分的表示。因此,如何在类别不平衡条件下提升尾类识别能力,同时不破坏预训练视觉-语言模型已有的泛化优势,成为该方向的一个关键问题。为了解决这一问题,已有研究尝试将神经坍塌理论引入提示调优过程。相关方法希望通过构造更规整的类别几何结构,拉大类别之间的角度间隔,从而提高稀有类别的判别性。然而,论文指出,现有做法大多建立在“全局 ETF 约束”之上,这种策略虽然能强化分离性,却也带来了新的问题。
二、问题分析
本文重点分析了长尾场景下视觉-语言模型提示调优所面临的两个核心挑战。
· 全局 ETF 约束会破坏预训练模型原有的高层语义结构:预训练视觉-语言模型内部并不是把所有类别一视同仁地排开,而是天然保留了层次化语义关系:语义相近的类别在特征空间中更近,语义差异大的类别更远。全局 ETF 会强行让所有类别原型之间保持几乎一致的夹角关系,相当于把原本丰富的语义邻域结构压平。这样虽然提高了统一的几何分离度,但会削弱模型跨数据集迁移和分布外泛化所依赖的语义结构。
·全局 ETF 只约束相对角度,不约束绝对方向,导致训练不稳定:从几何上看,只要类别原型之间的相对角度不变,整个原型结构就可以在特征空间中整体旋转。这样一来,不同随机种子下模型可能收敛到角度关系相似、但整体朝向不同的解,最终带来明显的训练波动和性能不稳定。这说明,单纯依赖全局 ETF 虽然能改善尾类分离,却难以兼顾稳定性与泛化性。
三、技术方案
针对上述问题,本文提出了簇感知神经坍塌提示调优方法(Cluster-aware Neural Collapse Prompt Tuning, CPT)。该方法的目标是:在类别不平衡的下游任务中,一方面提升尾类的可分性,另一方面尽可能保留预训练视觉-语言模型的全局语义结构,同时提高训练过程对随机种子的稳定性。围绕这一目标,论文设计了两个核心技术模块:
第一个核心模块是簇不变空间构建模块,这一模块的核心思想是:不再对所有类别施加统一的全局几何约束,而是先利用预训练模型自身的语义结构,把类别划分到多个稳定的语义簇中,然后只在局部语义邻域内进行更强的约束。这样做可以在增强局部分离性的同时,减少对全局语义结构的干扰。具体来说,该模块包含三个步骤。首先是静态簇挖掘。方法先提取每个类别在冻结文本编码器中的原始文本特征,再基于这些预训练特征执行一次 K-means 聚类,得到多个互不重叠的语义簇。论文特别强调,在训练过程中不再重复聚类,因为固定簇划分更有利于保留预训练阶段学到的高层语义结构,也能避免簇成员频繁变化给优化带来噪声。接着是提示簇映射。作者构造了一个从类别到簇编号的固定映射,把预训练阶段得到的类别归属关系直接传递到提示调优阶段。这样,训练时每个类别都能继承其原有的语义邻域信息,使预训练模型中的结构先验能够持续发挥作用。最后是公共空间对齐。在固定映射的约束下,每个类别的可学习文本特征以及对应的视觉特征,都被约束在所属语义簇的共同空间中。这样,不同簇之间仍然保持预训练模型原本的相对分布,而簇内类别则可以接受更强的判别性建模。换句话说,这一模块为后续优化建立了“局部可强化、全局不破坏”的结构基础。
第二个核心模块是神经坍塌驱动的判别性优化模块,在完成簇级结构划分后,论文进一步在每个语义簇内部引入神经坍塌思想,对类别原型和样本特征进行精细优化。与传统全局 ETF 不同,这一模块只在局部簇内增强几何分离,从而在不破坏跨簇全局结构的前提下,提高尾类的判别能力。该模块包含三个损失函数:
第一个是文本 ETF 分离损失。作者把每个类别的文本嵌入视为该类原型,并在同一语义簇内计算这些类别原型之间的相似关系,再鼓励它们形成局部 ETF 结构。这样做的作用,是把同一语义邻域中容易混淆的类别进一步拉开,尤其对尾类与头类之间的局部区分很有帮助。更重要的是,这种约束只发生在簇内,不会强迫彼此无关的类别也保持统一距离,因此避免了全局语义层次被压平的问题。第二个是类别级收敛损失。神经坍塌认为,同一类别的样本在训练后期会逐渐向一个统一的类别原型收缩。基于这一思想,论文显式地把每个类别的视觉特征拉向对应的文本原型,从而减少类内离散程度,并加强图像模态与文本模态之间的对齐关系。这样,文本原型不仅是类别语义的中心,也成为视觉特征收敛的锚点。第三个是旋转稳定损失。针对全局 ETF 中“只定相对角度、不定绝对方向”的问题,作者进一步把每个可学习文本原型,软约束到其对应的冻结预训练文本原型附近。这样做相当于为原型空间提供了一个稳定参考系,避免训练过程出现无约束的整体旋转,进而降低不同随机种子之间的结果波动,提升训练可复现性。
四、实验验证
实验一Base-to-new 泛化:本文在 11 个多样化分类数据集上遵循 base-to-new 的评测协议。每个数据集都被平均划分为 base 类和 novel 类。为了全面评估 CPT 在泛化能力和尾类可分性方面的有效性,我们在三种不同的不平衡设置下开展实验,对应的不平衡比为 τ ∈ {1, 0.25, 0.06}。τ 被定义为最小类别样本数与最大类别样本数之间的比值,即 τ = min{nk} / max{nk},其中 nk 表示第 k 个类别的训练样本数。在所有设置中,我们固定 max{nk} = 16。正如表 1 所示,当数据均衡时(τ = 1),CPT 在 base 类和 novel 类上的表现都与其他领先方法相当,这表明当不存在类别不平衡时,我们的方法不会牺牲泛化能力。而在更具挑战性的 τ = 0.25 和 τ = 0.06 设置下,长尾分布会严重影响模型性能,但 CPT 仍然能够在 novel 类上持续取得明显提升,说明它能够增强尾类识别能力。这些结果突出了我们设计的一个关键优势:通过簇感知约束保留预训练语义结构,CPT 能够在不损害泛化能力的前提下提升尾类的可分性。
表1 在不同类别不平衡比下,11 个下游数据集上的 Base-to-New 分类准确率(%)。
基于提示的方法均只使用 base 类进行训练,骨干网络采用 ViT-B/16。表中所有结果都表示 base 类准确率与 novel 类准确率之间的调和平均值(H)。
其中,不平衡比 τ = 0.25 和 τ = 0.06 对应高度不平衡场景,用于评估尾类识别的鲁棒性。

实验二跨数据集评估:为了评估 CPT 的跨域泛化能力,本文开展了跨数据集迁移实验:所有模型都在完整的 ImageNet-1K 数据集上训练,然后在不做进一步适配的情况下,直接在 10 个多样化的目标数据集上进行评估。这个设置模拟了真实世界中的分布偏移场景,其中学到的特征必须能够泛化到标签空间和图像统计特性都发生变化的新型分布外(OOD)域上。表 2 报告了不同方法在这些目标数据集上的性能。这与我们在 τ = 0.25 和 τ = 0.06 设置下的发现一致:CPT 在类别不平衡的域上显著提升了尾类性能。这说明 CPT 能够保留预训练阶段学到的高层语义结构,而这种结构进一步增强了模型在异构域之间的泛化能力。
表2 在不同类别不平衡比下的跨数据集泛化准确率(%)。其余设置与 Base-to-New 分类保持一致。
实验三CPT 的有效性:本文进行了消融实验,用来评估 CPT 框架中各个核心组成部分的贡献,如表 1 所示。我们从一个仅应用实例级提示调优(IVLP)的轻量级基线开始,逐步加入我们提出的三个关键模块。表 3 总结了各个变体在三个基准实验中的表现。我们观察到,每个损失项都能在前一个配置的基础上持续带来额外收益。在两种不平衡比设置下,包含三种损失的完整模型都在所有指标上取得了最佳性能。
表3 CPT 方法有效性的消融实验

实验四训练稳定性与随机种子方差:提示调优对随机种子比较敏感,尤其是在 few-shot 和长尾场景下。我们通过使用多个随机种子重复每个实验,并同时报告平均准确率和标准差,来量化模型稳定性,如图 4 所示。我们观察到两个一致的趋势。第一,那些施加了全局 ETF 但没有锚定机制的方法,在不同随机种子之间会表现出较大的方差。这是符合预期的:全局 ETF 约束了成对角度,但并不约束绝对方向。整个原型配置可以在特征空间中自由旋转,而不会带来额外损失。不同随机种子因此会收敛到不同的旋转状态,最终导致下游准确率在不同运行之间出现差异。第二,CPT 在不同随机种子下表现出明显更低的标准差,与全局 ETF 基线相比,方差通常能够减少约一半。这里,旋转稳定损失 LRS 起到了关键作用。它将每个可学习的文本原型 gc 锚定到其冻结的预训练原型 ĝc 上。通过惩罚过大的绝对偏移,LRS 消除了原本不受约束的全局旋转自由度,并使不同训练运行都能够对齐到同一个语义参考框架上。

图1 ImageNet base-to-new 设置下,类别不平衡数据(τ= 0.06)上的训练稳定性。
小提琴图展示了四种方法在5 个随机种子下调和平均准确率的分布,这四种方法分别是标准提示调优(COOP)、全局 ETF 提示调优、去掉RS 的我们的方法,以及CPT。
图中的点表示均值,误差条表示1 个标准差。
五、技术创新与贡献
本文围绕长尾分布下视觉-语言模型适配过程中尾类难区分、全局语义易受损、训练结果不稳定这三个关键问题,提出了簇感知神经坍塌提示调优方法 CPT,目标是在不破坏预训练模型迁移能力的前提下,提升尾类识别性能并增强跨数据集泛化能力。具体来看,本文首先提出了簇不变空间构建机制,通过在冻结的预训练文本特征上进行一次静态聚类,得到稳定的语义簇划分,再借助固定的类别到簇映射,将预训练阶段形成的高层语义邻域结构传递到提示调优阶段,使模型能够在训练中保留原有的全局语义几何关系,并避免动态聚类带来的优化噪声与目标漂移。 在此基础上,本文进一步提出了神经坍塌驱动的簇内判别性优化策略:一方面,通过文本 ETF 分离损失,仅在局部语义簇内部拉大类别原型之间的角度间隔,增强尾类与相近头类之间的区分性,而不再像传统全局 ETF 那样压平全部类别的语义层次;另一方面,通过类别级收敛损失,将同类视觉特征主动拉向对应的文本原型,强化类内紧凑性和图文跨模态对齐。 同时,针对现有 ETF 约束只限定相对角度、却无法约束绝对方向所导致的训练不稳定问题,本文又设计了旋转稳定损失,将可学习文本原型软锚定到其冻结的预训练原型附近,从而抑制原型空间的整体漂移,降低不同随机种子之间的性能波动,提升训练可复现性。最终,CPT 将原始 CLIP 对比目标与上述三类约束统一到同一优化框架中,实现了保留全局语义结构、强化局部分离能力、稳定优化过程的协同设计,为长尾场景下预训练视觉-语言模型的高效适配提供了一种新的技术路径。