一、 简介 (7.1节)
委员会机器 是一种由多个学习机器(学习者)作为组成部分的集成学习模型。它的核心思想是:通过组合多个"弱学习器"或"专业学习器"的决策,来构建一个性能更强大、更鲁棒的"强学习器"。
本章将介绍三种构建委员会机器的不同方法:总体平均 、推举 和 分层混合专家模型。
通俗理解:委员会机器就像一个由多位专家组成的"决策委员会"。每位专家(学习器)可能只擅长处理某类问题,或者看法有局限性。委员会的最终决策不是听命于某一位专家,而是综合所有专家的意见(如投票、加权平均),从而得出一个比任何单一专家都更明智、更稳定的结论。这种"三个臭皮匠,顶个诸葛亮"的哲学,是委员会机器强大的根本原因。
二、 总体平均 (7.2节)
这是最简单、最直观的委员会机器构建方法。
💡 核心公式通俗讲解:集成如何降低方差
假设我们有 L 个独立同分布的学习机器(预测器),每个预测器 y(l)(x) 对输入 x 给出预测。真实的目标函数为 f(x)。
总体平均委员会的输出为:
ycom(x)=L1∑l=1Ly(l)(x)
期望与方差分析:
- 期望:E[ycom]=E[L1∑y(l)]=L1∑E[y(l)]=E[y(l)]。委员会输出的期望与单个预测器相同。
- 方差:如果各预测器误差相互独立,且具有相同方差 σ2,则委员会输出的方差为: Var(ycom)=Var(L1∑y(l))=L21∑Var(y(l))=L2Lσ2=Lσ2
通俗讲解:
核心洞察 :总体平均能 "奇迹般"地减小预测的方差,而不改变其期望偏差。
方差减半效应:当预测器数量 L 增加时,委员会输出的方差以 1/L 的速度减小。这意味着即使每个成员预测器都比较"跳脱"(方差大),只要它们的错误是不相关的,取平均后整体预测就会变得非常稳定。
前提条件 :关键在于"误差独立"。如果所有预测器都犯同样的错误,那么平均它们也不会带来改善。因此,如何生成"多样性"是成功的关键。常用方法包括:在不同训练子集上训练、使用不同网络结构、使用不同初始权值等。
三、 推举 (7.4节)
推举(Boosting)是一种更强大、更主动的集成方法。它不是简单并行地平均多个已有模型,而是顺序地训练一系列弱学习器,每一个新的学习器都专注于纠正前一个学习器的错误。
💡 核心公式通俗讲解:如何"推举"弱学习器成为强学习器
以经典的AdaBoost算法为例:
思想:在每一轮迭代中,调整训练样本的权重分布。之前分类错误的样本会获得更大的权重,迫使下一个弱学习器更加关注这些"难样本"。
权重更新规则(对于二分类问题,标签 yi∈{+1,−1}):
- 计算当前弱学习器 ht(x) 的加权训练误差: ϵt=∑i=1NDt(i)∑i:ht(xi)=yiDt(i) 其中 Dt(i) 是第 t 轮样本 i 的权重。
- 计算该弱学习器在委员会中的权重(发言权): αt=21ln(ϵt1−ϵt)
- 更新下一轮的样本权重: Dt+1(i)=ZtDt(i)exp(−αtyiht(xi)) 其中 Zt 是归一化因子,确保 ∑iDt+1(i)=1。
通俗讲解:
αt**(发言权)**:弱学习器越准(ϵt 越小),它在最终委员会里的"票数" αt 就越大。错误率超过随机猜测(ϵt>0.5)的弱学习器会被赋予负权重,相当于"唱反调"的专家。
权重更新 Dt+1:
如果第 i 个样本被当前弱学习器正确分类(yiht(xi)=1),则其权重被乘以 exp(−αt),即权重减小。因为已经分对了,下一轮不用太关注。
如果第 i 个样本被错误分类(yiht(xi)=−1),则其权重被乘以 exp(αt),即权重增大。这个"难样本"会被重点关照,迫使下一个弱学习器努力分对它。
最终组合 :最终分类器是所有弱学习器的加权投票: H(x)=sgn(∑t=1Tαtht(x)) 推举的本质:像是一场"专项补习"。第一个老师(弱学习器)考完了,发现部分学生(样本)没掌握。第二个老师就专门针对这些薄弱学生讲课。第三个老师再针对仍然没懂的学生强化......如此循环,最后委员会里汇聚了各个阶段"补习名师"的意见,自然能把整体成绩提上来。
四、 分层混合专家模型 (7.7节)
与前两者不同,分层混合专家模型不是简单地并行或顺序组合多个"整体专家",而是构建一个层次化、门控的专家系统。它由多个"专家网络"和"门控网络"组成。
💡 核心公式通俗讲解:门控如何调度专家
HME模型可以看作是软决策树的一种概率实现。
结构:
- 专家网络:每个专家网络(例如,一个多层感知器或线性模型)专门处理输入空间中的一个特定区域或一种模式。
- 门控网络:负责根据输入 x,计算各个专家网络的"适配度"或"责任权重"。
输出计算:
假设有 M 个专家网络,输出为 ym(x,θm)。门控网络输出一组概率权重 gm(x,Ψ),满足 ∑m=1Mgm=1。委员会的最终输出为:
yHME(x)=∑m=1Mgm(x)⋅ym(x)
门控网络通常使用 Softmax 函数:
gm(x)=∑j=1Mexp(zj(x))exp(zm(x))
其中 zm(x) 是门控网络关于专家 m 的原始输出。
通俗讲解:
"分诊台"与"专科医生":HME模型就像一个大型医院的智能分诊系统。当你(输入 x)来看病时,分诊台(门控网络)根据你的症状,计算出你应该去内科、外科、皮肤科等科室(专家网络)的概率(gm)。每个科室的医生(专家)给出自己的诊断(ym)。最终,系统把各个诊断按概率加权,给出综合结论。
动态组合 :与总体平均不同,HME的专家组合是输入依赖的。对于不同的输入,会启用不同的专家组合。这大大增加了模型的灵活性和表示能力,能够更精细地建模输入-输出映射。
💡 核心算法:EM算法在HME中的应用 (7.12-7.13节)
训练HME模型是一个典型的潜在变量模型 学习问题。专家的选择是隐变量。期望最大化(EM)算法是解决此类问题的标准工具。
EM算法循环:
- E步(期望步):固定当前参数,计算每个专家网络对每个训练样本的"后验责任"(概率): hm(i)=P(选择专家m∣x(i),y(i),参数) 这相当于说,对于样本 i,专家 m 对它的预测误差负有多大"责任"。
- M步(最大化步):利用E步计算出的责任权重 hm(i),分别更新每个专家网络和门控网络的参数。这通常转化为多个独立的监督学习问题(例如,用梯度下降法)。
通俗讲解:
EM算法像是一个"协调会议":
E步:主持人(算法)问:"根据你们当前的水平(参数),每个专家认为样本 i 是自己负责的概率是多少?" 各专家提交概率估计 hm(i)。
M步:主持人说:"好,现在根据你们认领的责任比例 hm(i),各自去专门优化自己负责的那部分样本的性能。" 各专家分头行动,改进模型。
循环往复,直到整个团队(HME模型)的协作效率(总似然函数)不再提升。
五、 小结与讨论 (7.14节)
委员会机器的核心价值 :将**"集成"**这一思想从哲学推向工程实践。它提供了系统化构建高性能学习系统的框架。
三种方法的对比:
- 总体平均:简单、并行、主要降低方差。适用于已有多个模型且它们错误独立的情况。
- 推举:顺序、自适应、既降方差也减偏差。能将弱学习器提升为强学习器,但对噪声和异常点敏感。
- 分层混合专家模型:结构化、门控、建模能力强。适合处理具有明显子模式或区域差异的复杂问题,但训练相对复杂。
启示 :委员会机器的成功表明,在机器学习中,多样性 和合适的组合方式与单个模型的精确度同等重要。这深刻影响了后来的集成学习、混合模型以及神经网络中的注意力机制等研究方向。
🗺️ 第七章知识全景脑图
<code>mindmap
root((神经网络原理<br/>第七章 委员会机器))
简介(7.1)
核心思想(组合多个学习器)
构建强学习器
类比(专家委员会决策)
总体平均(7.2)
最简单的委员会
公式(y_com = (1/L)Σ y^(l))
核心效果
降低方差(Var ∝ 1/L)
保持期望偏差不变
关键前提(成员预测器误差独立)
推举(7.4)
思想(顺序训练,纠正错误)
AdaBoost算法
样本权重调整
错分样本权重增大
弱学习器权重(α_t ∝ ln((1-ε_t)/ε_t))
最终组合(加权投票)
本质(动态难样本挖掘)
分层混合专家模型(7.7)
结构
专家网络(专精区域)
门控网络(调度专家)
输出计算(加权平均)
权重来自门控(Softmax)
输入依赖的组合
类比(医院分诊系统)
训练:EM算法(7.12-7.13)
HME是潜在变量模型
E步(计算后验责任概率)
M步(按责任更新参数)
循环至收敛
三种方法对比
总体平均(并行,降方差)
推举(顺序,自适应,减偏差降方差)
HME(结构化,门控,强表示力)
核心启示
多样性与组合方式的重要性
集成学习的基础框架
</code>
💡 第七章学习要点:
本章从简单的并行平均开始,逐步引入了更复杂、更强大的委员会构建方法。重点理解:
- 总体平均的"方差削减"原理,这是所有集成方法的基础效应。
- 推举算法如何通过动态调整样本权重和模型权重,实现"弱变强",其精髓在于聚焦错误。
- HME模型如何通过门控网络实现专家的动态、软性组合,这引入了条件组合的思想,增强了模型的表达能力。
- EM算法 作为处理潜在变量模型的通用框架,是如何应用于HME这种复杂委员会机器训练的。
委员会机器的思想是现代机器学习中"集成学习"和"模型融合"的基石。理解这三种方法,将为理解随机森林、梯度提升决策树等更现代的集成算法,以及神经网络中的注意力机制等奠定基础。