机器学习：1.机器学习基本概念

机器学习基本概念

一.基本术语与核心假设

机器学习(Machine Learning)本质上是研究如何从数据中总结并应用规律的学科。 它通过算法让计算机从经验中学习，而不是通过显著式编程来获得特定能力。

机器学习 ≈ 构建映射函数

1.机器学习的基础术语

作用：在深入算法之前，需要明确数据与模型之间交互过程中的基本概念。

样本/示例(Sample/Instance)： 从特定采样环境中收集到的数据对象。
事实(Fact)： 数据中输入到输出的真实潜在规律，这在通常情况下是未知的。
假设(Hypothesis)： 对真实潜在规律的先验判断，是构建模型或映射的基础。
学习/训练(Learning/Training)： 计算机从给定的数据中学得模型或构建映射关系的过程。
泛化能力(Generalization)： 学得的模型适用于全新样本(未见过的数据)的能力。

2.基本假设

核心前提：

样本独立同分布假设(I.I.D)： 在样本构成的样本空间中，假设样本空间中的所有样本都服从一个未知的概率分布 D\mathcal{D}D，并且每个样本都是从这个分布中独立采样获得的。

独立性

"独立"指的是样本之间互不影响。
- 直观理解： 想象你在抛一枚硬币。你第一次抛出"正面"，绝不会影响你第二次抛出正面的概率。每一次抛硬币都是一个独立的事件。
同分布

"同分布"指的是所有样本都来自于同一个"母体"，遵守同一套概率规则。
- 直观理解： 想象你从一个装满红球和绿球的袋子里摸球。只要你摸完球放回去，并且袋子里的球没有被掉包，那么你每一次摸到红球的概率规律（分布）都是一样的。
- 在数据中： 如果你正在训练一个"猫狗识别"模型，你的训练数据全是家养宠物猫，但测试数据里全是野生的豹猫，这就违反了同分布。因为它们的视觉特征分布是不一样的。
- 核心逻辑： 我们假设样本空间中存在一个未知的真实分布 D\mathcal{D}D，我们获取的所有数据点都是从这个 D\mathcal{D}D 中采样出来的。

为什么这个假设如此重要？

从过去预知未来： 机器学习的目标是"从训练集学习规律，并应用到未见的测试集上"。如果训练集和测试集不是"同分布"的，那么在训练集上学到的规律在测试集上就会失效。
数学上的简化： 有了 I.I.D. 假设，我们可以把处理成千上万个数据的复杂概率问题，简化为单个数据概率的乘积，这使得损失函数（Loss Function）的推导变得可能。

如果这个假设失效（比如发生了分布偏移），模型就会表现出"泛化能力差"，即在训练时分数很高，实际使用时效果很烂。

3.机器学习定义

机器学习是这样一个领域------它赋予计算机学习的能力，（这种学习能力）不是通过显著式编程获得的
一个计算机程序被称为可以学习，是指给定某个任务T、某个性能指标P和经验E，该程序在任务T上被P指标所衡量的性能，会随着经验E的增加而提高

4. 机器学习分类

根据学习过程中的不同经验，可分类为：

(1).监督学习

作用：从给定的训练数据中学习出一个模型，用于预测新数据的输出。

输入与输出： 给定训练样本 (xi,yi)(\boldsymbol{x}_i, \boldsymbol{y}_i)(xi,yi)，满足某未知映射 fff（即 yi=f(xi)\boldsymbol{y}_i = f(\boldsymbol{x}_i)yi=f(xi)），输出一个模型 f^\hat{f}f^ 作为未知映射 fff 的近似。
主要类别：
- 分类问题： 处理的是输出 y\boldsymbol{y}y 为离散值的情况。
- 回归问题： 处理的是输出 y\boldsymbol{y}y 为连续值的情况，其学习过程等价于函数拟合。
评价标准：常用准确率（Accuracy）进行衡量。细粒度评价方法包括精确度（Precision）、召回率（Recall）和 F1 分数。

精确度（Precision）、召回率（Recall）和 F1 分数

精确度 (Precision)

定义：又称查准率。在所有被模型预测为正例的样本中，真正为正例的比例。
公式： P=TPTP+FPP = \frac{TP}{TP + FP}P=TP+FPTP（TPTPTP: 真正例, FPFPFP: 假正例）。

召回率(Recall)

定义：又称查全率。在所有实际为正例的样本中，被模型正确预测为正例的比例。
公式： R=TPTP+FNR = \frac{TP}{TP + FN}R=TP+FNTP（FNFNFN: 假反例）。

F1分数(F1 Score)

定义：精确度与召回率的调和平均数。
作用：综合考虑 PPP 和 RRR，当二者发生冲突时提供一个统一的评估标准。
公式： F1=2⋅P⋅RP+R=2TP2TP+FP+FNF1 = 2 \cdot \frac{P \cdot R}{P + R} = \frac{2TP}{2TP + FP + FN}F1=2⋅P+RP⋅R=2TP+FP+FN2TP。

评价指标	公式	描述说明
精确度 (Precision)	P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP	针对预测，预测为某类中正确的比例。
召回率 (Recall)	R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP	针对真实，真实为某类中正确的比例。
F1分数 (F1 Score)	F1=2PRP+RF_{1}=\frac{2PR}{P+R}F1=P+R2PR	精确度与召回率的调和平均数。

核心定律：包含"没有免费午餐定律"（NFL），即在不考虑先验假设的情况下，不存在放之四海而皆准的学习算法。

该定律指出，在不考虑任何先验偏好的情况下，所有算法在所有可能的问题上的平均表现是相同的。
结论：脱离具体问题谈论"哪种算法最好"是没有意义的。任何算法的优越性都必须建立在特定的数据分布或任务假设之上。

(2).非监督学习

作用：从无标注数据中学习并挖掘数据的内在统计规律或潜在结构。

本质：相比监督学习，非监督学习通常需要更多的假设（归纳偏置）。
主要任务：
- 聚类（Clustering）： 如客户划分，将相似样本归为一类。
- 降维与结构分析： 如主成分分析（PCA）和 EM 算法。

归纳偏置

定义：学习算法在面临新数据时，对目标函数的某种假设。
作用：正是因为有了归纳偏置（如"相近的样本属于同一类"），模型才能在没有显式标签的情况下完成"举一反三"的泛化过程。
主要任务与算法：
1. 聚类(Clustering)
  
  代表算法： K-Means（K均值）、层次聚类、DBSCAN。
  
  应用： 客户画像分析、自动文档分类。
2. 降维与结构分析
  
  代表算法： PCA（主成分分析）、SVD（奇异值分解）、EM算法（期望最大化）。
  
  应用： 特征压缩、图像降噪、发现数据隐藏的统计分布。

(3).半监督学习

作用：旨在利用有限的标注数据和大量未标注数据进行有效学习。

背景： 随着数据量激增，人工标注的成本大幅上升，半监督学习成为解决标注匮乏问题的重要手段。

(4).强化学习

作用：智能体（Agent）通过与环境交互并获得收益（Reward），学习并强化自身行为模式的过程。

基本框架（TPE）：
- 任务 T：通过序列决策过程与环境交互完成某个目标。
- 性能 P：最大化累积收益。
- 经验 E：通过与环境交互积累数据。
求解目标：收集状态、动作、奖励等数据，学习在特定状态下增加"好"动作的执行概率，降低"不好"动作的概率，以最大化累积收益函数。
典型应用： 涉及计算机下棋（如 AlphaGo 的自我对弈）、自动驾驶等。
前沿趋势： 现代复杂系统（如 DeepSeek）往往同时利用监督学习（初始模型）和基于人类反馈的强化学习（RLHF）进行优化。

二.泛化、欠拟合与过拟合

泛化能力是评估一个机器学习模型好坏的核心标准。我们在训练集中寻找规律，最终目的是为了在测试集（新数据）上表现优异。

1.泛化(Generalization)

作用：衡量模型在新样本上的预测性能。

核心逻辑： 训练样本通常不能覆盖所有可能的输入空间，因此学习器必须具备从已知的训练样本泛化到未知的新样本的能力。

2.欠拟合(Underfitting)

作用：描述模型学习能力不足，未能捕捉到数据内部规律的状态。

定义：学习器未完全学习到训练样本的潜在特征，不能很好地拟合数据的真实解。
常见原因：
- 模型容量过小。
- 模型过于简单。
- 优化过程陷入局部最优而非全局最优。
- 模型训练的迭代次数不足。

3.过拟合(Overfitting)

作用：描述模型过度紧贴训练数据，导致"死记硬背"而丧失举一反三能力的状态。

定义：当学习器把训练样本学得太好时，很可能把训练样本中一些个别的异常点或噪声特征当作了所有潜在样本都具有的一般性质。
常见原因：
- 模型容量过大。
- 训练数据量太少。
- 训练数据中存在较多噪声。
核心结论(误差曲线规律)：在模型学习的开始阶段，训练样本和测试样本上的错误率通常都会下降；但如果在训练一段时间后，训练样本上的错误率继续下降，而测试样本上的错误率反而开始上升，这就标志着模型出现了过拟合。

三.模型容量与复杂度

1.模型容量(Model Capacity)

作用：模型容量指模型拟合各种函数的能力。模型容量衡量模型能够拟合各种复杂函数关系的能力上限。

容量递增示例：
- 线性模型： y=w1⋅x+w0y = w_1 \cdot x + w_0y=w1⋅x+w0 (容量较低)。
- 二次型模型： y=w2⋅x2+w1⋅x+w0y = w_2 \cdot x^2 + w_1 \cdot x + w_0y=w2⋅x2+w1⋅x+w0。
- 多项式模型： y=∑i=0nwi⋅xiy = \sum_{i=0}^n w_i \cdot x^iy=∑i=0nwi⋅xi(容量较高) 。
模型容量随着项数增加而增加，可拟合更复杂的函数关系

核心匹配原则：当机器学习算法的模型容量与具体任务的复杂度和当前训练数据量相匹配时，算法效果通常最佳。

容量过低的模型不能解决复杂任务，会造成欠拟合。
容量过高的模型虽然能够解决复杂任务，但是当其容量远高于任务所需时，极易导致过拟合。

2.模型复杂度(Model Complexity)

作用：通常利用模型内部所包含的参数个数来直观表示模型的复杂度。

复杂度递增：线性模型 →\rightarrow→ 二次型模型 →\rightarrow→ 多项式模型。
细粒度分析规律：
- 如果学习到的参数值为 000，则该参数对模型复杂度的贡献也为 000。
- 绝对值较小的参数，其对复杂度的贡献通常小于绝对值较大的参数。

3.奥卡姆剃刀原则

如无必要，勿增实体

4. 没有免费的午餐定理(NFL)

NFL定理：一个算法a若在某些问题上比另一个算法b好，必存在另一些问题b比a好

四.正则化

1.正则化的核心思想

核心逻辑：如果我们的目标是在新的数据集上获得优化的准确度，则我们仅仅最小化训练数据集上的目标函数是不够的。

还要平衡以下三方面：

数据量
模型的复杂度
模型在新数据点上的准确度

作用：通过在损失函数中引入对模型复杂度的惩罚，训练出复杂度适中且泛化能力强的模型。

2.正则化公式

在经典的监督学习中，加上平方惩罚的损失函数可以表示为：

J(w)=1N∑iL(f(xi;w),yi)+λ∑jwj2J(\boldsymbol{w}) = \frac{1}{N} \sum_{i} \mathcal{L}(f(\boldsymbol{x}i; \boldsymbol{w}), y_i) + \lambda \sum{j} w_j^2J(w)=N1i∑L(f(xi;w),yi)+λj∑wj2

参数详细含义：

J(w)J(\boldsymbol{w})J(w)：目标函数。
1N∑iL(f(xi;w),yi)\frac{1}{N} \sum_{i} \mathcal{L}(f(\boldsymbol{x}_i; \boldsymbol{w}), y_i)N1i∑L(f(xi;w),yi)：预测损失项
λ∑jwj2\lambda \sum_{j} w_j^2λj∑wj2：正则项
w\boldsymbol{w}w：模型的权重参数。
NNN：训练样本的总数量。
iii：样本的索引，遍历从第 1 个到第 NNN 个样本。
xi\boldsymbol{x}_ixi：第 iii 个样本的输入特征。
yiy_iyi：第 iii 个样本的真实标签。
f(xi;w)f(\boldsymbol{x}_i; \boldsymbol{w})f(xi;w)：模型的预测输出。表示在当前参数 w\boldsymbol{w}w 下，模型对输入 xi\boldsymbol{x}_ixi 作出的预测值。
L(⋅,⋅)\mathcal{L}(\cdot, \cdot)L(⋅,⋅)：基础损失函数（Loss Function）。
λ\lambdaλ：正则化系数（超参数）。控制对复杂模型惩罚严厉程度的阀门，λ>0\lambda > 0λ>0。
wjw_jwj：模型 w\boldsymbol{w}w 向量中的第 jjj 个具体权重值。

注：1/N是为了保护正则化项的，防止受到样本量的影响。

3.超参数选择方法

作用：如何科学地挑选出一个合适的惩罚系数 λ\lambdaλ 以达到最优的正则化效果？

留出法：将训练数据划分为训练子集和验证子集，在候选的 λ\lambdaλ 集合中，选择在验证集上预测损失最小的那一个。
K-折交叉验证法：将数据随机切分为 kkk 个相等大小的子集。每次保留一个子集作为验证集，其余作为训练集运行 kkk 次。最终选择平均损失最小的 λ\lambdaλ 值。

五.偏差与方差

1.期望泛化误差成分

假设在同一问题下存在不同的训练集 D1,⋯ ,Dn\mathcal{D}_1, \cdots, \mathcal{D}_nD1,⋯,Dn，我们从真实分布 D\mathcal{D}D 中抽取不同的训练集进行训练并验证：

记 fˉ(x)=EDi∼D $f(x;Di)$ \bar{f}(\boldsymbol{x}) = \mathbb{E}_{\mathcal{D}_i \sim \mathcal{D}} $f(\\boldsymbol{x}; \\mathcal{D}_i)$ fˉ(x)=EDi∼D $f(x;Di)$ 为不同训练集上学得模型的期望输出。

参数：

x\boldsymbol{x}x：一个特定的测试样本输入（比如一张特定的猫的图片）。我们现在只盯死这一个特定的数据点，看模型对它的预测情况。

D\mathcal{D}D：真实的数据分布（全宇宙中所有可能的数据集合及其规律）。这是上帝视角，我们永远无法完全掌握它。

Di∼D\mathcal{D}_i \sim \mathcal{D}Di∼D：表示从真实分布 D\mathcal{D}D 中随机抽取（∼\sim∼）出的第 iii 个训练集 Di\mathcal{D}_iDi。现实中，我们手头的训练数据只是千万种可能的数据集中的一种（即某个 Di\mathcal{D}_iDi）。

f(x;Di)f(\boldsymbol{x}; \mathcal{D}_i)f(x;Di)：特定模型的预测值。表示使用第 iii 个训练集 Di\mathcal{D}_iDi 训练出来的模型 fff，对我们之前固定好的那个输入 x\boldsymbol{x}x 所作出的预测输出。由于每次抽到的训练集 Di\mathcal{D}_iDi 都不一样，所以每次训练出来的模型不一样，预测出来的结果 f(x;Di)f(\boldsymbol{x}; \mathcal{D}_i)f(x;Di) 也会随之波动。

EDi∼D $\dots$ \mathbb{E}_{\mathcal{D}_i \sim \mathcal{D}} $\\cdots$ EDi∼D $\dots$ ：数学期望（Expectation）。表示求括号里内容的"平均值"。它的下标说明了是对"所有可能从 D\mathcal{D}D 中抽出来的训练集 Di\mathcal{D}_iDi"求平均。

fˉ(x)\bar{f}(\boldsymbol{x})fˉ(x)："平均模型"的预测值（期望输出）。这是等式左边的结果。

计算方法：

由于我们不可能拥有无限多的平行宇宙（拿不到无限多的训练集），所以理论上这个绝对准确的 E\mathbb{E}E 是算不出来的。

但在理论推导或计算机模拟时，我们通常使用蒙特卡洛法（Monte Carlo method）通过求均值来近似计算：

计算步骤模拟：

设定一个循环，重复 mmm 次（比如 m=10000m=10000m=10000）。

在第 iii 次循环中，从真实分布 D\mathcal{D}D 中采样出一个容量为 NNN 的数据集 Di\mathcal{D}_iDi。

在 Di\mathcal{D}_iDi 上训练你的机器学习模型，得到训练好的模型 fif_ifi。

让模型 fif_ifi 对固定的测试点 x\boldsymbol{x}x 进行预测，记录下预测值 f(x;Di)f(\boldsymbol{x}; \mathcal{D}_i)f(x;Di)。

循环结束后，我们得到了 mmm 个预测值。把它们全部加起来除以 mmm（求平均）：

fˉ(x)≈1m∑i=1mf(x;Di)\bar{f}(\boldsymbol{x}) \approx \frac{1}{m} \sum_{i=1}^m f(\boldsymbol{x}; \mathcal{D}_i)fˉ(x)≈m1i=1∑mf(x;Di)

当 mmm 趋近于无穷大时，这个平均值就等于期望 E\mathbb{E}E。

f∗f^*f∗（分散的蓝色小点）：标注为学习得到的模型。代表我们在某一个具体的训练集 Di\mathcal{D}_iDi 上训练出来的特定模型预测值。
f^\hat{f}f^（红色正中心）：标注为理想模型。代表上帝视角的绝对客观真理（即公式中的真实标记 yyy）。
E $f*$ =fˉE $f\^\*$ = \bar{f}E $f*$ =fˉ（蓝色散点群的中心位置）：标注为所有学习到的模型的期望/平均值。

记 fˉ(x)=EDi∼D $fi*(x;Di)$ \bar{f}(x) = \mathbb{E}_{D_i \sim D} $f_i\^\*(x; D_i)$ fˉ(x)=EDi∼D $fi*(x;Di)$

指标	公式/定义	物理意义/本质
偏差 (Bias)	bias2(x)=(f‾(x)−y)2bias^{2}(x)=(\overline{f}(x)-y)^{2}bias2(x)=(f(x)−y)2	期望输出(理想模型)与真实标记之间的差别
方差 (Variance)	v(x)=EDi∼D $(fi(x;Di)-f‾(x))2$ v(x)=\mathbb{E}{D{i}\sim D} $(f_{i}\^{\}(x;D_{i})-\\overline{f}(x))\^2$ v(x)=EDi∼D $(fi*(x;Di)-f(x))2$	使用不同训练集产生的方差(产生模型的波动范围)
噪声 (Noise)	y=EDi∼D $yDi$ y = \mathbb{E}{D_i \sim D} $y_{D_i}$ y=EDi∼D $yDi$ v(ϵ)=EDi∼D $(y-yDi)2$ v(\epsilon)=\mathbb{E}{D_{i}\sim D} $(y-y_{D_{i}})\^{2}$ v(ϵ)=EDi∼D $(y-yDi)2$	训练集统计噪声的方差

结论归纳：

欠拟合时：模型具有高偏差 (High Bias) 和低方差 (Low Variance)。
过拟合时：模型具有低偏差 (Low Bias) 和高方差 (High Variance)。

2.期望泛化误差的偏差-方差分解

经过数学推导（其中协方差项为0），期望泛化误差可以完美分解为以下三部分之和：

Error=v(x)+bias2(x)+vϵ\text{Error} = v(\boldsymbol{x}) + bias^2(\boldsymbol{x}) + v_\epsilonError=v(x)+bias2(x)+vϵ

核心结论：模型的泛化误差 = 方差 + 偏差的平方 + 噪声之和。

理论推导：

期望泛化误差

EDi∼D $(fi*(x;Di)-yDi)2$ \mathbb{E}_{\mathcal{D}_i \sim \mathcal{D}} \left $(f_i\^\*(\\boldsymbol{x}; \\mathcal{D}_i) - y_{\\mathcal{D}_i})\^2 \\right$ EDi∼D $(fi*(x;Di)-yDi)2$

表示我们在无数个不同的训练集上训练出模型后，这些模型在测试点 x\boldsymbol{x}x 上的预测值 fi∗f_i^*fi∗ 与现实观测到的带噪标签 yDiy_{\mathcal{D}_i}yDi 之间误差平方的平均值（期望）。
我们在现实世界中实际收集到、记录在表格里、并最终喂给模型去学习的"标准答案"，往往不是绝对完美、百分之百正确的。它天生自带各种"误差"和"杂质"。这部分杂质，在机器学习中就被统称为噪声（Noise）
- yyy（绝对真理）：假设有一个全知全能的上帝视角，他知道这个样本 100% 精确、没有任何瑕疵的真实答案。
- yDiy_{\mathcal{D}_i}yDi（观测标签）：我们作为凡人，在收集第 iii 个数据集 Di\mathcal{D}_iDi 时，通过仪器测量等现实手段，实际记录下来的答案。
引入均值与真理

=EDi∼D $(fi*(x;Di)-fˉ(x)+fˉ(x)-y+y-yDi)2$ = \mathbb{E}_{\mathcal{D}_i \sim \mathcal{D}} \left $(f_i\^\*(\\boldsymbol{x}; \\mathcal{D}_i) - \\bar{f}(\\boldsymbol{x}) + \\bar{f}(\\boldsymbol{x}) - y + y - y_{\\mathcal{D}_i})\^2 \\right$ =EDi∼D $(fi*(x;Di)-fˉ(x)+fˉ(x)-y+y-yDi)2$
- fˉ(x)\bar{f}(\boldsymbol{x})fˉ(x)：所有模型的平均预测值（期望中心）。
- yyy：绝对真实的无噪声标签（客观真理）。
展开平方项 (消除交叉项)

=EDi∼D $(fi*(x;Di)-fˉ(x))2$ +EDi∼D $(fˉ(x)-y)2$ +EDi∼D $(y-yDi)2$ = \mathbb{E}_{\mathcal{D}i \sim \mathcal{D}} \left $(f_i\^\*(\\boldsymbol{x}; \\mathcal{D}_i) - \\bar{f}(\\boldsymbol{x}))\^2 \\right$ + \mathbb{E}{\mathcal{D}i \sim \mathcal{D}} \left $(\\bar{f}(\\boldsymbol{x}) - y)\^2 \\right$ + \mathbb{E}{\mathcal{D}_i \sim \mathcal{D}} \left $(y - y_{\\mathcal{D}_i})\^2 \\right$ =EDi∼D $(fi*(x;Di)-fˉ(x))2$ +EDi∼D $(fˉ(x)-y)2$ +EDi∼D $(y-yDi)2$

这里利用了多项式展开公式 (A+B+C)2=A2+B2+C2+2AB+2AC+2BC(A+B+C)^2 = A^2 + B^2 + C^2 + 2AB + 2AC + 2BC(A+B+C)2=A2+B2+C2+2AB+2AC+2BC。

在这个式子中协方差都是0
要理解为什么展开后的交叉项（协方差项）全都是 000，我们需要掌握两个核心武器：数学期望的性质，以及常数与随机变量的区别。
- A=fi∗(x;Di)−fˉ(x)A = f_i^*(\boldsymbol{x}; \mathcal{D}_i) - \bar{f}(\boldsymbol{x})A=fi∗(x;Di)−fˉ(x) （模型波动的方差项）
- B=fˉ(x)−yB = \bar{f}(\boldsymbol{x}) - yB=fˉ(x)−y （模型固有的偏差项）
- C=y−yDiC = y - y_{\mathcal{D}_i}C=y−yDi （数据的噪声项）
三个交叉项（即协方差项）：2AB2AB2AB、2BC2BC2BC、2AC2AC2AC都是0。即：E $AB$ =0\mathbb{E} $AB$ =0E $AB$ =0、E $BC$ =0\mathbb{E} $BC$ =0E $BC$ =0、E $AC$ =0\mathbb{E} $AC$ =0E $AC$ =0。
在证明之前，请务必牢记一个最核心的视角：我们是在对"不同的训练集 Di\mathcal{D}_iDi"求期望（求平均）。
- 常数（不随 Di\mathcal{D}_iDi 变化）： fˉ(x)\bar{f}(\boldsymbol{x})fˉ(x) (所有模型的平均值，已经是定死的结论了) 和 yyy (上帝视角的客观真理)。
- 随机变量（随着抽到不同的 Di\mathcal{D}iDi 而跳动）： fi∗f_i^*fi∗ (本次训练出的特定模型) 和 yDiy{\mathcal{D}_i}yDi (本次观测到的带噪标签)。
1. 证明 E $A\cdotB$ =0\mathbb{E} $A \\cdot B$ = 0E $A\cdotB$ =0 即 EDi $(fi*-fˉ)\cdot(fˉ-y)$ \mathbb{E}_{\mathcal{D}_i} $(f_i\^\* - \\bar{f}) \\cdot (\\bar{f} - y)$ EDi $(fi*-fˉ)\cdot(fˉ-y)$
  1. 提出常数： fˉ\bar{f}fˉ 和 yyy 都是常数
    
    =(fˉ−y)⋅EDi $fi*-fˉ$ = (\bar{f} - y) \cdot \mathbb{E}_{\mathcal{D}_i} $f_i\^\* - \\bar{f}$ =(fˉ−y)⋅EDi $fi*-fˉ$
  2. 分配期望：把 E\mathbb{E}E 放进括号里：
    
    =(fˉ−y)⋅(EDi $fi*$ −EDi $fˉ$ )= (\bar{f} - y) \cdot ( \mathbb{E}_{\mathcal{D}i} $f_i\^\*$ - \mathbb{E}{\mathcal{D}_i} $\\bar{f}$ )=(fˉ−y)⋅(EDi $fi*$ −EDi $fˉ$ )
  3. 核心化简：根据定义，无数个 fi∗f_i^*fi∗ 的期望就是 fˉ\bar{f}fˉ，即 E $fi*$ =fˉ\mathbb{E} $f_i\^\*$ = \bar{f}E $fi*$ =fˉ。
  4. 结果： E $A\cdotB$ =0\mathbb{E} $A \\cdot B$ = 0E $A\cdotB$ =0
2. 证明 E $B\cdotC$ =0\mathbb{E} $B \\cdot C$ = 0E $B\cdotC$ =0 即 EDi $(fˉ-y)\cdot(y-yDi)$ \mathbb{E}_{\mathcal{D}_i} $(\\bar{f} - y) \\cdot (y - y_{\\mathcal{D}_i})$ EDi $(fˉ-y)\cdot(y-yDi)$
  1. 提出常数：
    
    =(fˉ−y)⋅EDi $y-yDi$ = (\bar{f} - y) \cdot \mathbb{E}_{\mathcal{D}_i} $y - y_{\\mathcal{D}_i}$ =(fˉ−y)⋅EDi $y-yDi$
  2. 分配期望：把 E\mathbb{E}E 放进括号里：
    
    =(fˉ−y)⋅(EDi $y$ −EDi $yDi$ )= (\bar{f} - y) \cdot ( \mathbb{E}_{\mathcal{D}i} $y$ - \mathbb{E}{\mathcal{D}_i} $y_{\\mathcal{D}_i}$ )=(fˉ−y)⋅(EDi $y$ −EDi $yDi$ )
  3. 核心化简（噪声零均值假设）： 在机器学习和统计学中，我们默认"噪声的期望为 0"（即有时候高估，有时候低估，但平均下来等于真实值）。也就是说，观测标签的期望等于真实标签：E $yDi$ =y\mathbb{E} $y_{\\mathcal{D}_i}$ = yE $yDi$ =y。
  4. 结果： E $B\cdotC$ =0\mathbb{E} $B \\cdot C$ = 0E $B\cdotC$ =0
3. 证明 E $A\cdotC$ =0\mathbb{E} $A \\cdot C$ = 0E $A\cdotC$ =0 即 EDi $(fi*-fˉ)\cdot(y-yDi)$ \mathbb{E}_{\mathcal{D}_i} $(f_i\^\* - \\bar{f}) \\cdot (y - y_{\\mathcal{D}_i})$ EDi $(fi*-fˉ)\cdot(y-yDi)$
  
  这一步不能用提出常数的技巧了，因为 AAA 和 CCC 里面都包含随机变量。这里用到的是独立性假设。
  1. 互相独立：在统计学习假设中，我们当前训练集训练出来的模型预测波动 (fi∗−fˉ)(f_i^* - \bar{f})(fi∗−fˉ)，与当前面对的这个测试样本身上的随机测量噪声 (y−yDi)(y - y_{\mathcal{D}_i})(y−yDi)，在概率上是相互独立的。（你模型学得好不好，跟你测量的尺子准不准是两码事）。
  2. 期望的乘法性质：如果两个随机变量互相独立，那么它们乘积的期望，等于它们各自期望的乘积：
    
    E $A\cdotC$ =E $A$ ⋅E $C$ \mathbb{E} $A \\cdot C$ = \mathbb{E} $A$ \cdot \mathbb{E} $C$ E $A\cdotC$ =E $A$ ⋅E $C$
  3. 带入已知结果：
    - 在第一项证明中，我们已经算出 E $A$ =E $fi*-fˉ$ =0\mathbb{E} $A$ = \mathbb{E} $f_i\^\* - \\bar{f}$ = 0E $A$ =E $fi*-fˉ$ =0
    - 在第二项证明中，我们也算出了 E $C$ =E $y-yDi$ =0\mathbb{E} $C$ = \mathbb{E} $y - y_{\\mathcal{D}_i}$ = 0E $C$ =E $y-yDi$ =0
  4. 结果： 0⋅0=00 \cdot 0 = \mathbf{0}0⋅0=0。
结论代入

=v(x)+bias2(x)+v(ϵ)= v(\boldsymbol{x}) + bias^2(\boldsymbol{x}) + v(\epsilon)=v(x)+bias2(x)+v(ϵ)

3.偏差-方差窘境与解决策略

模型复杂度与误差的关系(Bias-Variance Tradeoff)：

随着模型复杂度提升，偏差会降低（拟合能力变强），但方差会升高（对特定训练数据的敏感度变高）。当模型过于简单时，表现为高偏差（欠拟合，Underfitting）；当模型过于复杂时，表现为高方差（过拟合，Overfitting）。

调优策略：

减小偏差的方法(针对欠拟合)：
1. 使用复杂度更高的模型。.
2. 收集并引入更多的特征。
3. 利用更高次的多项式核。
4. 利用更深的神经网络结构等。
减小方差的方法(针对过拟合)：
1. 增加更多的训练数据。
2. 精简特征（保留更有效的特征）。
3. 采用更简单的模型。
4. 利用更浅层次的神经网络等。