多实例学习简介

多实例学习(Multiple Instance Learning, MIL)是一种弱监督学习方法,主要特点是在训练过程中,标签是赋予 "样本包(bag)" 而不是单个实例(instance)。

基本概念:

  • 实例(Instance):单个数据点,如一张图像的一个小块。

  • 包(Bag):由多个实例组成的集合。

  • 标签(Label):只对整个包有标签,包内实例没有单独标签。

典型假设(Standard MIL Assumption):

  • 如果一个包中至少存在一个正实例,则该包为正;

  • 如果包中所有实例都是负的,则该包为负。

应用场景:

  • 病理图像分析:整张切片为正例时,仅意味着某个区域有病变,而非所有区域;

  • 药物发现:某种化合物活性为正,并不意味着其所有构象都有效;

  • 图像分类:仅提供图像级标签,但图像中可能只有局部区域与标签相关。

主要方法:

  1. 基于实例选择的方法(如MI-SVM):尝试在包中找到关键的"正实例"。

  2. 嵌入方法(如Deep MIL):将整个包映射为一个向量,再进行分类。

  3. 注意力机制方法:为每个实例分配权重,自适应学习关键区域。

小结:

多实例学习解决了标签粒度不匹配的问题,适用于实例级难以标注但包级标签易获得的场景。随着深度学习的发展,MIL也被广泛用于弱监督学习、目标定位和医学图像分析等领域。


一句话理解:

找到正实例(或估计其贡献)是为了更好地构造"包"的表示,最终对整个包进行分类(正或负)。

  • 找到正实例 ≈ 找到对包分类结果影响最大的实例。

  • 找到后,通过聚合这些实例的特征,形成包的表征。

  • 然后再对包进行分类(正/负),与常规分类模型一样使用标准损失函数优化。

可类比理解为:

一张正例 Whole Slide Image 中,仅某些 patch 含癌变。通过 MIL,我们找到这些关键 patch,用它们构造整张图的表达向量,再判断这张图是否为阳性。

相关推荐
风象南1 天前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia1 天前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮1 天前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬1 天前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia1 天前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区1 天前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两1 天前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪1 天前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232551 天前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源