机器学习绪论

一、什么是机器学习？

机器学习的核心逻辑可以概括为：

就像人类通过大量练习学会骑车，机器学习通过数据 "练习" 学会解决问题。

要理解机器学习，先得掌握它的 "专业词汇"。我们以 "判断好瓜" 的案例为例，拆解核心术语：

特征：描述对象的属性。比如西瓜的 "色泽""根蒂""敲声" 都是特征。
属性空间：所有特征组成的 "坐标系"。比如 "色泽（青绿 / 乌黑 / 浅白）+ 根蒂（蜷缩 / 稍蜷 / 硬挺）" 就构成一个 2 维属性空间，每个样本都是这个空间中的一个点。

根据数据是否带 "正确答案"（标签），机器学习可分为三大类：

特点：数据集自带 "正确答案"（标签），模型通过学习 "特征 - 标签" 的对应关系进行预测。
细分类型：

例子：用带 "好瓜 = 是 / 否" 标签的西瓜数据训练模型，再用新西瓜的特征（色泽、根蒂等）预测它是否为好瓜。

特点：数据集没有标签，模型通过挖掘数据本身的规律（如相似度）自主分组。
核心应用：

例子：给 100 个西瓜的特征（不标好坏），模型自动分成 "表皮光滑组""敲声清脆组" 等，帮助发现新规律。

特点：组合多个简单模型（弱学习器），形成一个更强的模型（强学习器）。
原理：就像多人决策往往比单人判断更准，多个模型的 "投票" 能降低单一模型的误差。
例子：用 3 个不同模型分别判断西瓜好坏，最终按 "少数服从多数" 决定结果，准确率更高。

**注意：**模型准确率要高且各有千秋

训练出模型后，怎么知道它好不好用？这就需要科学的评估方法。

欠拟合 ：模型太简单，数据集太复杂。

比如判断西瓜时，只看 "色泽"，忽略 "根蒂""敲声"，导致很多好瓜被错判。
解决：增加特征、提高模型复杂度（如用更复杂的公式）。
过拟合 ：模型太复杂，数据集太简单。

比如判断树叶时，错误认为 "有锯齿的才是树叶"，导致没有锯齿的树叶被错判。
解决：增加训练数据、简化模型（如删除无关特征）、用正则化限制模型复杂度。

留出法 ：将数据集按比例（如 7:3）分为训练集（70%）和测试集（30%），用测试集评估效果。

注意：要保持数据分布一致（如好瓜 / 坏瓜比例不变），避免偏差。
交叉验证法 ：将数据集分为 k 个互斥子集，每次用 k-1 个子集训练，1 个测试，重复 k 次取平均。

常用 "10 折交叉验证"，结果更稳定，是工业界常用方法。

对于分类任务（如 "识别好瓜"），仅用精度不够，需要更细致的指标：

TP（真正例）：真实值与预测值都为好瓜。

FP（假正例）：真实值为坏瓜，预测值为好瓜。

TP（真正例）：真实值与预测值都为好瓜。

FN（假反例）：真实值为好瓜，预测值为坏瓜。

两者通常 "此消彼长"：想多挑好瓜（高查全率），可能会混入坏瓜（低查准率）；想挑的全是好瓜（高查准率），可能会漏掉很多好瓜（低查全率）。通过 P-R 曲线可直观对比不同模型的性能。

奥卡姆剃刀原理："如无必要，勿增实体"。简单模型能解决问题时，就不用复杂模型。比如用 3 个特征能判断好瓜，就不用 10 个特征。
没有免费的午餐定理（NFL）：不存在 "万能模型"。一个模型在 A 任务上表现好，可能在 B 任务上很差。选择模型必须结合具体问题，不能盲目跟风 "最先进算法"。

机器学习的本质，是让计算机从数据中 "自主发现规律"。从术语到评估，从学习类型到模型选择，核心都是围绕一个目标：用数据训练出能 "举一反三" 的模型。