半监督学习:如何用10%的已知,学会100%的世界?
灵魂三问
问一:如果老师只教了10道题,我能学会100道吗?
答 :这就是自训练------先做会的那10道,然后用这个思路去"猜"剩下的90道。猜对了的题,就当成"新例题"加入题库,继续学。
- 风险:猜错第一道,后面可能全错(错误传播)
问二:一个人看不准,两个人互相看会更准吗?
答 :这就是协同训练------就像两个专家:一个看颜色,一个看形状。各自判断一批,然后交换"参考答案"互相学习。
- 要求:数据必须有至少两个不同的观察角度
问三:如果知道"A是苹果",那么和A很像的B,是不是也该是苹果?
答 :这就是标签传播------标签会像朋友圈消息一样,从已标注数据顺着"相似度网络"传播出去。
- 关键:相似的数据应该有相似的标签
问四:一件衣服换个角度拍,还是那件衣服吗?
答 :这就是一致性正则化 ------对同一张图片(轻微旋转/裁剪),要求模型给出相同判断。这逼模型关注本质特征,忽略无关细节。
🎯 四大算法一句话看懂
| 算法 | 一句话 | 像什么 |
|---|---|---|
| 自训练 | "我觉得这个也是" → 加入题库 | 学生变老师 |
| 协同训练 | "你看颜色,我看形状" → 交换答案 | 双专家会诊 |
| 标签传播 | "他已经是了,你也应该是" | 朋友圈扩散 |
| 一致性正则化 | "换个马甲我也认识你" | 认人不认衣服 |
💡 什么时候用哪个?
- 数据很可靠,怕出错少 → 自训练
- 数据能从两个角度描述 → 协同训练
- 数据间相似度很明显 → 标签传播
- 数据容易做不影响本质的改动 → 一致性正则化
🌟 终极智慧
半监督学习的本质是:
- 承认"完全标注太贵"(现实)
- 但拒绝"没标注就放弃"(智慧)
- 在已知 和未知之间搭桥
- 让有限的真理,照亮无限的未知
就像现实中:
父母只教了你10种危险(已知)
你却能识别100种危险情况(推理)
------用少量确定,应对大量不确定,这就是成长的智慧。