【学习笔记】多标签交叉熵损失的原理之前做单标签分类任务(比如情感分析里的“好评/差评”二选一、图像分类里的“猫/狗/鸟”三选一),用普通交叉熵损失得心应手,结果第一次碰多标签任务(比如一张图片同时标注“猫”“太阳”“草地”、一篇文章同时属于“科技”“教育”“职场”),直接套用普通交叉熵损失,训练出来的模型效果一塌糊涂,损失值还一直不收敛。后来翻了不少论文、跑了好几组对比实验,才算把多标签交叉熵损失的原理摸透,原来它和普通交叉熵的核心区别,就在于对“标签类型”的适配——前者对应“多选题”,后者对应“单选题”。