机器学习监督学习模型--线性回归

线性回归是机器学习中最基础、最常用的算法之一，核心作用是 "建模变量间的线性关系"，比如用广告投入预测销售额、用学习时长预测考试成绩。它原理简单、可解释性强，是解决回归类问题的 "入门首选"，工作中掌握这一章的核心内容，能应对 80% 的连续值预测场景。

线性回归的本质是找一条最优直线（或超平面），拟合自变量和因变量的线性关系，最终用这条直线做预测。

多元线性回归：有多个自变量（比如用 "TV 广告 + 广播广告 + 报纸广告" 预测 "销售额"），公式：y=β0+β1x1+β2x2+...+βnxn。

系数（β）：表示自变量对因变量的影响程度。比如β1=2.8，意味着 "学习时长每增加 1 小时，成绩平均增加 2.8 分"。
损失函数 ：衡量预测误差的标准，工作中最常用均方误差（MSE） ------ 把每个误差平方后求平均，能放大极端误差（比如预测错 10 万和错 1 万，平方后差距更明显）。

线性回归的核心是找到最优参数β，实际工作中主要用两种方法，各有适用场景：

特征缩放：通常需要提前对特征进行缩放（如标准化或归一化），以加快收敛速度。
局部极小值、鞍点问题：可能陷入局部极小值（非全局最优解），或遇到鞍点（梯度为零但非极值点）。
解决方案：使用动量（Momentum）、自适应优化器（如Adam）或二阶方法（如牛顿法）。
常见类型：小批量梯度下降（Mini-batch GD）：工作中最常用，每次用一小批数据（比如 32/64 条）计算梯度，平衡速度和稳定性。

数据预处理是前提 ：
- 必须处理缺失值、异常值（比如销售额突然出现 1000 万，要替换或剔除），否则会严重影响拟合效果。
- 特征要标准化 / 归一化：尤其是用梯度下降时，避免因特征量纲差异（比如身高用米、体重用千克）导致收敛慢。
避免过拟合 ：
- 线性回归容易因特征过多出现过拟合（训练集预测准，测试集不准），解决方法：
  - 用 L2 正则化（岭回归）：惩罚过大的参数，让模型更稳健。
  - 筛选有用特征：比如用相关系数剔除和因变量无关的特征。
模型评估看 3 个指标 ：
- 均方根误差（RMSE）：直观反映误差大小（和因变量单位一致，比如销售额误差 5 万元）。
- 决定系数（R²）：看模型解释能力，越接近 1 越好（比如 R²=0.8，说明 80% 的销售额变化能被广告投入解释）。
适用场景速记 ：
- 适合：预测连续值（销售额、温度、产量）、需要解释变量影响（比如 "TV 广告每多花 1 千，销售额多赚 8 百"）。
- 不适合：变量间是非线性关系（比如 "学习时长超过 10 小时后，成绩不再提升"）。

自变量（广告投入：TV、广播、报纸，单位：千元）