在无监督不变学习(Invariant Learning)的理想流程中,我们习惯于先用 EIIL (Environment Inference for Invariant Learning) 推断环境,再用 GroupDRO 进行鲁棒优化。然而,现实往往更残酷:如果第一阶段的 ERM 模型没有按你的预期"偷懒",或者它学到了过于复杂的混合偏见,整个技术链路就会彻底崩塌。
本文将深入探讨 EIIL 失效的底层逻辑,并给出当前主流的四大"破局策略"。
1. 核心危机:为什么第一阶段推断会失效?
EIIL 的成功建立在一个脆弱的假设之上:普通 ERM 模型一定会优先且纯粹地拟合数据中最显著的那种虚假特征。 但在复杂任务中,这个假设常因以下两个原因失效:
1.1 简单性偏置 (Simplicity Bias) 的背叛
神经网络具有天然的简单性偏置。如果因果特征(真正的分类依据)在某些架构下比虚假特征(如背景、噪声)更容易被提取,ERM 就会直接学到正确的因果逻辑。此时,梯度空间中不存在明显的"环境差异",EI 阶段强行最大化梯度差异,只会导致模型学习到无意义的噪声划分。
1.2 混合偏见的维度灾难
真实数据往往潜伏着多重虚假相关性(例如:图像中同时存在特定的色彩滤镜、特定的拍摄角度和特定的背景纹理)。当参考模型同时混合了这些偏见时,其梯度向量 会在空间中呈现多模态分布,简单的标量梯度划分方案(EI Objective)无法从中解耦出清晰的环境标签。
2. 破局之道:环境发现的四大实战策略
既然"自动推断"不可靠,我们就需要人工干预第一阶段,强制模型暴露出我们想要的偏见,从而获得高质量的环境标签。
策略一:JTT (Just Train Twice) ------ 错误即环境(最常用)
这是目前工业界最稳健、最简单的方案。
-
核心逻辑 :利用 ERM 在训练集上的预测结果来划分环境。
-
操作步骤:
-
训练一个标准 ERM 模型。
-
将预测错误 的样本划分为一组(困难环境),将预测正确的样本划分为另一组(简单环境)。
-
这种方法假设预测错误的样本是因为缺乏"虚假特征"支持,从而被迫暴露了真实的分布情况。
-
-
后续:将这两个组标签输入 GroupDRO 重新训练。
策略二:表征聚类 (Representative Clustering) ------ 隐空间分群(进阶首选)
当存在多个复杂偏见时,聚类比梯度推断更可靠。代表算法为 GEORGE。
-
核心逻辑:在模型的高维特征空间中寻找"同类中的异类"。
-
操作步骤:
-
训练 ERM 后,提取倒数第二层特征向量 z。
-
在每个类别内部进行 K-Means 聚类(例如将所有"狗"的图片聚成 4 类)。
-
每个聚类簇(Cluster)即为一个细粒度的隐环境。
-
-
优点:能自动分离出"红色的狗"、"草地上的狗"等多个维度的偏见。
策略三:架构限制与偏见诱导 ------ 强制模型"学坏"
如果你已知某种偏见类型(如纹理偏见),可以针对性设计"残疾模型"。
-
核心逻辑:设计一个在架构上无法学习复杂特征的模型。
-
操作步骤:
-
使用感受野极小的网络(如 BagNet)作为参考模型,强迫它只能看到纹理而看不到形状。
-
此时参考模型产生的偏见极其纯粹,基于它生成的环境标签能精准定位纹理环境。
-
策略四:损失函数干预 ------ 放大梯度饥饿
通过修改 Loss 函数,人为增强模型的简单性偏置。
-
核心逻辑:使用广义交叉熵(GCE)或提前终止(Early Stopping)。
-
操作步骤:在模型刚学到简单的色彩、背景等特征时立即停下。利用这个"半成品"模型去生成梯度分布,其环境划分通常比完全收敛的模型更具备解耦潜力。
3. 总结:不变与变
在这一套完整的技术链路中:
-
变量(Variable) :是环境标签的获取方式。根据数据复杂程度,在 JTT、聚类或架构诱导中三选一。
-
常量(Constant) :是下游的 GroupDRO 流程。
无论通过哪种策略得到了 Group Labels,后续接入 GroupDRO 的逻辑是完全一致的。GroupDRO 就像是一台稳健的减震器,它的上限完全取决于你第一阶段划分环境的"纯度"。
专家建议 :实践中请优先尝试 JTT (策略一) ,如果 WGA(最差组准确率)没有提升,再考虑通过 K-Means (策略二) 增加环境的粒度。