【02】线性回归：机器学习的入门第一课

一、线性回归是什么？

线性回归是机器学习领域中最基础、最经典的回归算法，同时也是监督学习的核心入门内容。其核心逻辑在于寻找一条最优直线（单特征场景下称为一元线性回归）或平面（多特征场景下称为多元线性回归），以精准拟合数据集中隐含的线性规律，进而实现对未知数值的预测。

该算法之所以成为机器学习入门的优选方案，核心原因在于其理论体系简洁、逻辑严谨，无需复杂的数学推导基础，即可使初学者快速理解"通过历史数据拟合规律、基于规律预测未知数据"的核心逻辑。

例如，通过近一个月的日均气温数据拟合线性规律，可实现对未来3-5天日均气温的初步预测；通过学生一段时期内的每日学习时长与对应考试成绩的关联数据拟合规律，可对该学生后续的成绩走势进行合理预判，具有较强的实际应用价值。

二、核心思想

线性回归的核心在于精准捕捉"特征"与"目标值"之间的线性关联，通过严谨的数学方法拟合一条最优直线，最大限度缩小预测值与实际数据之间的误差，进而利用该经过验证的最优直线，实现对未知数据的高效、精准预测。

此处的"线性关联"可定义为"特征变量发生变化时，目标值随之按固定比例发生变化"，例如房屋面积每增加10㎡，房价相应增加5万元，即属于典型的线性关联。以房屋面积（特征变量x，单位：㎡）与房价（目标值y，单位：万元）的历史数据为例，通过线性回归算法的计算的，确定x与y之间的线性关系并拟合最优直线后，输入新的房屋面积参数（x），即可通过该直线方程快速计算出对应的房价预测值（y）。该直线的核心优势在于其"最贴合"所有历史数据点，即所有数据点到该直线的误差总和最小，从而保障预测结果的可靠性。

图一：一元线性回归拟合直线示意图

三、核心原理

3.1 一元线性回归方程

线性回归的核心公式为单特征场景下的一元线性回归方程： y=wx+by = wx + by=wx+b （多特征场景下的多元线性回归方程为 y=w1x1+w2x2+...+wnxn+by = w_1x_1 + w_2x_2 + ... + w_nx_n + by=w1x1+w2x2+...+wnxn+b ，其中 w1w_1w1 至 wnw_nwn 分别为各特征对应的权重）。

该公式是线性回归算法的核心基础，所有计算与预测过程均围绕该公式展开，理解公式中各参数的含义，是掌握线性回归原理的关键。

公式参数含义拆解（结合实例说明，便于初学者理解）：

yyy ：待预测的目标数值，又称因变量，是受其他因素影响的结果变量，例如房价、气温、商品销量、学生成绩等，均属于典型的目标数值；
xxx ：输入的特征变量，又称自变量，是影响目标值的关键因素，例如房屋面积、学习时长、广告投入、每日湿度等，其变化会直接影响目标值的变化趋势；
www ：特征权重 ，又称回归系数，是线性回归的核心参数之一，其物理含义为"特征变量x每增加1个单位，目标值y相应增加或减少的单位数量"。权重 www 的正负决定了特征与目标值的关联方向，正权重表示正相关，负权重表示负相关。例如，当 w=5w=5w=5 时，表明房屋面积每增加1㎡，房价相应增加5万元（正相关）；当 w=−2w=-2w=−2 时，表明通勤时间每增加1小时，房价相应减少2万元（负相关）；
bbb ：截距，又称偏置项，是线性回归的另一核心参数，其含义为"当特征变量x取值为0时，目标值y的基础理论数值"。例如，当房屋面积 x=0x=0x=0 时，若 b=10b=10b=10 万元，该数值仅为理论计算结果，实际场景中房屋面积不可能为0，无需过度纠结其现实意义，其核心作用是辅助拟合最优直线，提升直线与实际数据点的贴合度。

图二：线性回归参数示意图

原理核心：线性回归的本质是求解最优的 www 和 bbb 两个参数，使拟合得到的直线最大限度贴合所有实际数据点，即实现"所有数据点的预测值（ y^=wx+b\hat{y} = wx + by^=wx+b ）与实际值（ yyy ）的偏差（误差）总和最小化"。其中，预测值 y^\hat{y}y^ 为通过公式计算得到的理论值，实际值 yyy 为真实采集的数据，两者之间必然存在一定偏差，线性回归的核心目标就是将该偏差的总和降至最低。

3.2 最小二乘法

此处的误差并非单个数据点的偏差（单个数据点的偏差不具备统计意义），而是所有数据点偏差的综合体现。在实际应用中，通常采用"最小二乘法"计算并最小化该误差，该方法也是线性回归求解 www 和 bbb 的核心方法，是线性回归原理的核心支撑。具体计算过程如下：

图三：最小二乘法误差示意图

第一步：定义单个数据点的误差。单个数据点的误差为该数据点的实际值与预测值的差值，其数学表达式为：

ei=yi−y^i=yi−(wxi+b) e_i = y_i - \hat{y}_i = y_i - (wx_i + b) ei=yi−y^i=yi−(wxi+b)

（其中 yiy_iyi 为第i个数据点的实际值， y^i\hat{y}_iy^i 为第i个数据点的预测值， xix_ixi 为第i个数据点的特征值， i∈[1,n]i \in [1,n]i∈[1,n] ， nnn 为数据总个数）；

第二步：定义总误差 。由于单个误差可能存在正负差异（例如某一数据点误差为+2，另一数据点误差为-2），直接对所有误差求和会出现正负抵消的情况，无法真实反映整体偏差程度。因此，对单个误差进行平方处理（平方后所有误差均为非负数，可避免抵消问题），再对所有平方后的误差求和，得到总误差 LLL ，其数学表达式为：

L=∑i=1nei2=∑i=1n(yi−wxi−b)2 L = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - wx_i - b)^2 L=i=1∑nei2=i=1∑n(yi−wxi−b)2

（ nnn 为数据总个数，求和符号表示对所有数据点的误差平方进行累加）；

第三步：最小化总误差 。核心目标是求解一组 www 和 bbb ，使总误差 LLL 达到最小值。该过程可通过高等数学中的偏导数求解实现：对总误差 LLL 分别关于 www 和 bbb 求偏导数，令两个偏导数均为0（偏导数为0时，函数取得极值，此处即为最小值），得到二元一次方程组，求解该方程组即可得到 www 和 bbb 的最优解；

先计算数据均值（求解最优解的基础步骤，均值计算难度较低，可手动计算或借助工具实现）：

xˉ=1n∑i=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i xˉ=n1i=1∑nxi
yˉ=1n∑i=1nyi\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i yˉ=n1i=1∑nyi

（ xˉ\bar{x}xˉ 为所有特征值 xxx 的均值， yˉ\bar{y}yˉ 为所有目标值 yyy 的均值）；

基于上述均值，求解 www 和 bbb 最优解的推导公式如下：

w=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−xˉ)2w = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}w=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)

b=yˉ−wxˉb = \bar{y} - w\bar{x}b=yˉ−wxˉ

3.3 具体案例计算

结合具体数据示例，辅助理解计算过程：假设存在3组房屋面积与房价的样本数据（ xxx ：房屋面积/㎡， yyy ：房价/万元）：(100, 50)、(120, 60)、(150, 75)，基于上述公式求解最优 www 和 bbb ：

计算均值 ：首先计算特征变量 xxx 和目标值 yyy 的均值， xˉ=(100+120+150)/3=123.33\bar{x} = (100+120+150)/3 = 123.33xˉ=(100+120+150)/3=123.33 （保留两位小数）， yˉ=(50+60+75)/3=61.67\bar{y} = (50+60+75)/3 = 61.67yˉ=(50+60+75)/3=61.67 （保留两位小数）；
计算分子 ∑(xi−xˉ)(yi−yˉ)\sum (x_i - \bar{x})(y_i - \bar{y})∑(xi−xˉ)(yi−yˉ) ：分别计算每个数据点的 (xi−xˉ)(x_i - \bar{x})(xi−xˉ) 与 (yi−yˉ)(y_i - \bar{y})(yi−yˉ) ，再将两者相乘后求和；

具体计算过程：

(100−123.33)×(50−61.67)+(120−123.33)×(60−61.67)+(150−123.33)×(75−61.67)≈(−23.33)×(−11.67)+(−3.33)×(−1.67)+(26.67)×(13.33)≈271.33+5.55+355.51≈632.39 \begin{align*} & (100-123.33)\times(50-61.67) + (120-123.33)\times(60-61.67) + (150-123.33)\times(75-61.67) \\ \approx & (-23.33)\times(-11.67) + (-3.33)\times(-1.67) +(26.67)\times(13.33) \\ \approx & 271.33 + 5.55 + 355.51 \\ \approx & 632.39 \end{align*} ≈≈≈(100−123.33)×(50−61.67)+(120−123.33)×(60−61.67)+(150−123.33)×(75−61.67)(−23.33)×(−11.67)+(−3.33)×(−1.67)+(26.67)×(13.33)271.33+5.55+355.51632.39

计算分母 ∑(xi−xˉ)2\sum (x_i - \bar{x})^2∑(xi−xˉ)2：分别计算每个数据点 (xi−xˉ)(x_i - \bar{x})(xi−xˉ) 的平方值，再对所有平方值求和；

具体计算过程：

(100−123.33)2+(120−123.33)2+(150−123.33)2≈(−23.33)2+(−3.33)2+(26.67)2≈544.29+11.09+711.29≈1266.67 \begin{align*} & (100-123.33)² + (120-123.33)² + (150-123.33)² \\ \approx & (-23.33)² + (-3.33)² + (26.67)² \\ \approx & 544.29 + 11.09 + 711.29 \\ \approx & 1266.67 \end{align*} ≈≈≈(100−123.33)2+(120−123.33)2+(150−123.33)2(−23.33)2+(−3.33)2+(26.67)2544.29+11.09+711.291266.67

求解 www 和 bbb ：将分子与分母代入 www 的计算公式，可得 w≈632.39/1266.67≈0.5w ≈ 632.39 / 1266.67 ≈ 0.5w≈632.39/1266.67≈0.5 ；将 www 与均值代入 bbb 的计算公式，可得 b≈61.67−0.5×123.33≈0b ≈ 61.67 - 0.5×123.33 ≈ 0b≈61.67−0.5×123.33≈0 ；

最终拟合直线为： y=0.5xy = 0.5xy=0.5x ，该公式的实际含义为"房屋面积每增加1㎡，房价相应增加0.5万元"，与所给3组样本数据的内在规律完全吻合，验证了计算结果的准确性。

最小二乘法的核心作用的是通过严谨的数学计算，求解最优的 www 和 bbb 参数，使拟合直线最大限度贴合所有数据点，最大限度降低预测误差，从而保障后续基于该直线进行未知数据预测时，结果的准确性与可靠性，这也是线性回归算法能够广泛应用于各类数值预测场景的核心原因。

四、实操准备

线性回归的实操难度较低，是机器学习领域中最易上手的实操项目之一。只需提前完成基础工具搭建与数据准备，即可顺利完成模型的搭建、训练与预测。具体准备内容如下：

4.1 工具准备

实操的核心是搭建适配的Python环境，建议选用Python 3.7及以上版本（该版本兼容性较强，可有效避免多数库版本冲突问题）。同时，需安装三个核心Python库，各库的核心功能、应用场景如下，便于初学者明确各库的用途：

NumPy：主要用于数值计算，可高效处理最小二乘法中的求和、均值、平方、偏导数等复杂运算，大幅简化计算流程，避免手动编写繁琐的计算代码，提升实操效率；同时支持大规模数据的快速运算，可满足后续大规模数据集的处理需求；
Pandas：主要用于数据读取、清洗与预处理，可实现CSV格式自定义数据的读取、数据结构与缺失情况的查看、缺失值与异常值的处理、特征与目标值对应关系的整理等功能，使原始数据满足模型训练的要求，是数据预处理阶段的核心工具；
Scikit-learn（简称sklearn）：是机器学习入门阶段最常用的工具库，内置成熟的线性回归模型，无需手动编写最小二乘法求解代码，可直接调用模型完成训练与预测，大幅降低实操门槛；同时提供数据集拆分、模型评估等辅助工具，可实现线性回归全流程实操。

4.2 数据准备

对于初学者，建议选用获取便捷、特征与目标值线性关系显著的数据集，无需花费大量时间进行数据收集与整理，可直接选用Scikit-learn内置数据集。该类数据集经过预处理，无明显异常值与缺失值，可使初学者专注于模型实操过程，无需投入过多精力处理数据清洗的复杂步骤。常用的内置数据集如下：

波士顿房价数据集（load_boston）：经典的房价预测数据集，包含506组样本数据，涵盖房屋面积、房间数、周边低收入人口比例、交通便利度等13个特征变量，目标值为房屋中位数价格，特征与目标值的线性关系显著，是初学者练习线性回归的首选数据集；
糖尿病数据集（load_diabetes）：用于糖尿病患者病情进展预测，包含442组样本数据，特征变量为患者年龄、体重、血压等10项身体指标，目标值为患者一年后的病情进展程度，适用于初学者练习多特征线性回归，熟悉多元线性回归的实操流程。

若需使用自定义数据（如自行收集的学生学习时长与成绩数据、广告投入与商品销量数据等），需将数据整理为"特征列+目标值列"的表格格式（推荐采用CSV文件格式，该格式读取与编辑便捷），确保特征与目标值一一对应，无空行、无乱码。后续可通过Pandas的read_csv()函数快速读取数据，直接用于模型训练。

五、实操步骤（Scikit-learn）

以下实操步骤基于Python+Scikit-learn实现，所有代码均可直接复制运行。每一步均附带详细的代码解释与实操注意事项，按照步骤逐步操作，可快速掌握线性回归的实操流程（以波士顿房价数据集为例）：

5.1 导入工具库

python 复制代码

# 导入核心库
import numpy as np  # 数值计算，处理模型训练中的各类数值运算
import pandas as pd  # 数据处理，用于读取、清洗和查看数据集
import matplotlib.pyplot as plt  # 绘图库，用于可视化特征与目标值的关系、模型拟合效果
from sklearn.datasets import fetch_openml  # 导入内置波士顿房价数据集，无需自行收集
from sklearn.linear_model import LinearRegression  # 导入线性回归模型，直接调用训练
from sklearn.model_selection import train_test_split  # 导入数据集拆分工具，拆分训练集和测试集
from sklearn.metrics import mean_squared_error  # 导入误差评估工具，用于评估模型预测效果

# 解决中文显示问题（避免绘图时中文乱码）
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

说明：上述代码实现了所有实操所需工具库的导入，后续所有操作均依赖该些库。

5.2 加载并查看数据集

python 复制代码

# 加载波士顿房价数据集
boston = fetch_openml(name='boston', version=1, as_frame=True)
# 提取特征数据和目标值
X = boston.data  # 特征矩阵（包含13个特征）
y = boston.target.astype(float)  # 目标值（房价，转换为浮点型）

# 转换为DataFrame格式，便于查看和处理
df = pd.DataFrame(X, columns=boston.feature_names)
df['price'] = y  # 添加房价目标值列

# 查看数据集的前5行，快速了解数据结构
print("数据集前5行：")
print(df.head())
# 查看数据集基本信息（行数、列数、数据类型、缺失值）
print("\n数据集基本信息：")
print(df.info())
# 查看数据统计特征（均值、标准差、最大值、最小值等）
print("\n数据统计特征：")
print(df.describe())

# 提取RM特征（平均房间数，重点分析该特征与房价的关系）
rm = df['RM']
print(f"\nRM特征（平均房间数）的均值：{rm.mean():.2f}，最大值：{rm.max():.2f}，最小值：{rm.min():.2f}")

# 可视化RM特征与房价的关系（散点图）
plt.figure(figsize=(10, 6))
plt.scatter(rm, y, color='#1f77b4', alpha=0.7, s=30)
plt.xlabel('RM（平均房间数）', fontsize=12)
plt.ylabel('price（房价，千元）', fontsize=12)
plt.title('波士顿房价：平均房间数 RM vs 房价 price', fontsize=14, pad=15)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

说明：通过上述代码，可将内置波士顿房价数据集转换为直观的表格格式。

其中，

boston.data 为特征矩阵（包含13个特征变量）；
boston.target 为目标值数组（房价），转换为DataFrame格式后，可清晰呈现各特征与房价的对应关系；
df.head() 默认显示数据集前5行，若需查看更多样本，可在括号内传入对应参数（如 df.head(10) 可显示前10行）；
info() 函数可查看数据集的行数、列数、数据类型及缺失值情况（本数据集无缺失值，可直接用于模型训练）；
describe() 函数可查看各特征的统计信息（均值、标准差、最大值、最小值等），为后续模型训练与参数调整提供数据支撑。

图三：最小二乘法误差示意图

5.3 拆分训练集和测试集

python 复制代码

# 一元线性回归：仅使用RM特征，需将一维数组转换为二维数组（模型要求特征为2D格式）
x = rm.to_numpy().reshape(-1, 1)  # 转换格式：(n,) → (n,1)
y = df['price'].values  # 房价目标值

# 拆分训练集和测试集：test_size=0.3表示30%为测试集，70%为训练集
# random_state=42保证拆分结果可复现
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

# 查看拆分后的数据规模
print("训练集特征数据规模（样本数×特征数）：", x_train.shape)
print("训练集目标值规模：", y_train.shape)
print("测试集特征数据规模：", x_test.shape)
print("测试集目标值规模：", y_test.shape)

说明：

一元线性回归仅使用RM单特征，需通过 reshape(-1, 1) 将一维的 RM 特征转换为二维数组（模型要求特征输入为 2D 格式）；
保持训练集 / 测试集拆分比例（3:7）和随机种子（42），确保实操可复现。

5.4 创建线性回归模型，用训练集训练模型

python 复制代码

# 初始化线性回归模型
model = LinearRegression()

# 用训练集训练模型（学习RM与房价的线性关系）
model.fit(x_train, y_train)

# 查看模型训练后的参数（一元线性回归的w和b）
print(f"模型特征权重（w，RM的回归系数）：{model.coef_[0]:.4f}")
print(f"模型截距（b）：{model.intercept_:.4f}")
print(f"\n拟合的一元线性回归方程：price = {model.coef_[0]:.4f} × RM + {model.intercept_:.4f}")

说明：

一元线性回归中，model.coef_[0] 对应 RM 特征的权重 www，model.intercept_ 对应截距 bbb；
直接输出拟合的回归方程，直观展示模型学习到的线性关系。

5.5 用训练好的模型进行预测，对比实际值与预测值

python 复制代码

# 用模型对测试集进行预测
y_pred = model.predict(x_test)

# 对比测试集实际值与预测值（前10组）
comparison = pd.DataFrame({
    'RM（测试集）': x_test.flatten()[:10],  # 展平二维数组为一维
    '实际房价': y_test[:10],
    '预测房价': y_pred[:10]
})
print("实际值与预测值对比（前10组）：")
print(comparison.round(2))  # 保留两位小数，便于查看

# 计算均方误差（MSE），量化评估模型拟合效果
mse = mean_squared_error(y_test, y_pred)
print(f"\n模型测试集均方误差（MSE）：{mse:.2f}")

# 可视化：测试集实际值 vs 预测值（拟合直线展示）
plt.figure(figsize=(10, 6))
# 绘制测试集实际数据点
plt.scatter(x_test, y_test, color='#1f77b4', alpha=0.7, s=30, label='实际数据点')
# 绘制拟合直线（基于模型的w和b）
x_line = np.linspace(x_test.min(), x_test.max(), 100).reshape(-1, 1)
y_line = model.predict(x_line)
plt.plot(x_line, y_line, color='red', linewidth=2, label=f'拟合直线：price = {model.coef_[0]:.4f}×RM + {model.intercept_:.4f}')

plt.xlabel('RM（平均房间数）', fontsize=12)
plt.ylabel('price（房价，千元）', fontsize=12)
plt.title('波士顿房价：RM特征测试集实际值 vs 模型预测值', fontsize=14, pad=15)
plt.legend(fontsize=10)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

说明：

预测后对比前 10 组实际值与预测值，直观展示模型预测效果；
计算 MSE 量化评估模型误差，MSE 越小说明拟合效果越好；
拟合直线可视化，将模型学习到的线性关系以直线形式展示，结合实际数据点，清晰呈现模型拟合效果。

图四：RM特征测试集实际值与模型预测值示意图

图五：实际值与预测值对比折线图

六、线性回归的优缺点

6.1 优点

理论简洁易懂：线性回归的核心逻辑为"拟合最优直线、最小化预测误差"，理论体系简洁、逻辑严谨，无需复杂的数学推导与深度学习相关知识，实操步骤规范清晰，适用于机器学习初学者入门，可帮助初学者快速建立对"回归预测"的认知，为后续学习更复杂的模型奠定基础；
计算高效快捷 ：模型训练过程本质上是求解 www 和 bbb 两个核心参数的过程，计算量较小，训练速度较快，即便处理大规模数据集（如几十万、上百万条样本数据），也可快速完成训练，无需高性能计算设备，普通计算机即可满足实操需求；
可解释性强 ：通过模型输出的特征权重 www ，可清晰分析各特征对目标值的影响程度与关联方向（正相关或负相关）。例如，房屋面积对应的权重为正且绝对值较大，表明房屋面积对房价的影响最为显著。该优势是神经网络、随机森林等复杂模型所不具备的，适用于商业决策、学术研究等需要明确预测逻辑的场景。

6.2 缺点

适用范围有限：线性回归仅能拟合特征与目标值之间的线性关系，无法处理非线性问题。例如，"学习时长超过10小时后，成绩不再显著提升，甚至出现下降"的非线性场景，若采用线性回归进行拟合，将导致预测误差较大，结果准确性不足。若需处理非线性问题，需通过特征工程（如多项式特征转换）将非线性问题转化为线性问题，或更换随机森林、梯度提升树等非线性模型；
对异常值敏感：异常值指偏离大多数样本数据的极端值（如房价数据中，面积仅80㎡但价格高达200万元的豪宅），该类数据会严重影响拟合直线的准确性，导致模型预测偏差增大。由于线性回归以"总误差最小化"为目标，极端值会牵引拟合直线向其偏移，使直线偏离大多数正常数据点，降低模型的泛化能力；
无法捕捉特征交互作用：线性回归假设各特征之间相互独立，无法捕捉多特征之间的交互作用对目标值的影响。例如，"房屋面积+地理位置"的交互作用（相同面积的房屋，市中心地段价格显著高于郊区），线性回归无法捕捉该类复杂关联，仅能单独分析各特征的影响，导致预测精度受限。

图六：线性与非线性拟合对比图

七、适用场景

线性回归适用于简单数值预测任务，且要求特征与目标值之间存在显著线性关联。该算法的核心优势在于简洁、高效、可解释性强，因此在多个领域均有广泛应用。

常见适用场景如下：

房价预测：房屋面积、房间数、楼层、周边配套等特征与房价呈显著线性关系，可通过线性回归实现房价预测，为房地产从业者的定价决策、购房者的购房参考提供数据支撑；
商品销量预测：广告投入、定价策略、促销活动力度等特征与商品销量呈线性关系，企业可通过线性回归预测不同投入场景下的商品销量，为营销方案制定、库存管理提供决策依据；
气温预测：历史气温、湿度、气压等特征与未来短期气温呈线性关系，可通过线性回归实现短期气温预测，为日常生活安排、农业生产规划提供参考；
学生成绩预测：学习时长、作业完成质量、课堂参与度等特征与考试成绩呈线性关系，教师与家长可通过线性回归预测学生成绩走势，及时调整教学与学习计划。

注意：若特征与目标值之间无显著线性关系（可通过绘制散点图直观判断，若散点无明显直线趋势，则判定为非线性关系），不建议采用线性回归。此时可选择决策树、随机森林、梯度提升树等非线性模型，该类模型可更好地捕捉数据中的非线性规律，提升预测精度。