📘 机器学习:回归分析
✅ 一、回归分析是什么?
回归分析是研究变量之间关系的一种统计方法。
它用于回答两个核心问题:
1️⃣ 有没有关系?
2️⃣ 关系多强?如何预测?
📌 举例:
用身高(自变量 X)预测体重(因变量 Y)
预测不是完全准确 → 因为现实中还存在其他干扰因素
→ 用误差项来表示无法解释的部分
✅ 二、回归名称从哪来?
源自高尔顿的发现:
父母很高 → 孩子会偏高但更接近平均
父母很矮 → 孩子会偏矮但更接近平均
称为 回归到平均(Regression to the Mean)
因此得名:回归分析 Regression
✅ 三、模型的数学表达式
回归关系表示为:
y=f(x1,x2,...,xp)+ε
| 符号 | 含义 |
|---|---|
| (x1, x2,...,xp) | 自变量(输入) |
| (y) | 因变量(输出) |
| (ε) | 误差 / 噪声(无法完全解释的部分) |
| (f(⋅)) | 回归函数(关系形式) |
✅ 四、模型分类
| 类型 | 示例 | 是否直线? |
|---|---|---|
| 线性回归 | (y = a + bx) | ✅直线 |
| 非线性回归 | 指数、对数、曲线关系 | ❌不是直线 |
📌 判断标准:不是看变量有没有平方,而是参数是否线性
例:(y = a + bx^2) → 仍是线性回归模型!
✅ 五、回归分析的目的
| 目的 | 内容说明 |
|---|---|
| 解释 | 弄清影响因素 |
| 预测 | 根据输入预测输出 |
| 推断 | 变量之间是否显著相关 |
📌 在机器学习应用中,回归常用于连续值预测
如:房价预测、销量预测、评分预测等
✅ 六、误差项的常见假设
- 均值为 0
- 方差相同(同方差性)
- 独立性
- 正态分布(用于显著性检验)
这些假设是否成立 → 模型可靠性的判断标准