使用 scikit-learn 实现简单的线性回归案例

1. 什么是线性回归?

线性回归是一种预测模型,它通过拟合数据点到一条直线上,来预测一个因变量(目标值)与一个或多个自变量(特征)之间的关系。它的数学表达式通常为:

其中,y 是目标值,x1​,x2​,...,xn​ 是特征,而 β0​,β1​,...,βn​ 是模型的参数。

在实际应用中,线性回归可以帮助我们解决许多问题,比如房价预测、销售量预测等。

2. scikit-learn 简介

scikit-learn 是一个开源的 Python 机器学习库,它提供了简单而高效的工具用于数据挖掘和数据分析。它支持多种机器学习算法,包括线性回归、逻辑回归、决策树等。今天,我们将重点使用它的 LinearRegression 模块。

3. 实现线性回归的步骤

接下来,我们将通过一个简单的示例,展示如何使用 scikit-learn 实现线性回归。我们将从数据准备开始,逐步完成模型的训练、评估和可视化。

3.1 准备数据

首先,我们需要准备数据。为了简单起见,我们将生成一组简单的线性数据,并加入一些随机噪声。

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 生成数据
np.random.seed(0)  # 设置随机种子,确保结果可复现
X = np.random.rand(100, 1) * 10  # 生成 100 个随机数,范围在 0 到 10 之间
y = 3 * X + 2 + np.random.randn(100, 1) * 2  # 线性关系 y = 3x + 2,加入噪声

3.2 划分数据集

为了评估模型的性能,我们需要将数据集划分为训练集和测试集。scikit-learn 提供了 train_test_split 函数,可以轻松完成这一任务。

python 复制代码
# 2. 划分数据集(测试集30%,训练集70%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

这里,我们将 30% 的数据用作测试集,其余用作训练集。

3.3 创建线性回归模型

接下来,我们使用 LinearRegression 创建一个线性回归模型,并使用训练集数据对其进行拟合。

python 复制代码
# 3. 创建线性回归模型
model = LinearRegression()

# 4. 拟合模型
model.fit(X_train, y_train)

3.4 评估模型

模型训练完成后,我们需要使用测试集对其进行评估,这里我们使用均方误差(MSE)来评估。

python 复制代码
# 5. 使用模型进行预测
y_pred = model.predict(X_test)

# 6. 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差 (MSE): {mse}")

MSE 越小,模型的预测误差越小,模型的拟合效果越好。

3.5 可视化结果

最后,我们使用 matplotlib 绘制拟合结果,直观展示模型的性能。

python 复制代码
# 7. 可视化结果
plt.scatter(X, y, color='blue', label='point')
plt.plot(X_test, y_pred, color='red', label='line')
plt.xlabel('X')
plt.ylabel('y')
plt.title('show')
plt.legend()
plt.show()

运行上述代码后,你会得到下图:

3.6完整代码:

python 复制代码
# 导入所需库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

'''自定义数据集使用scikit-learn中的包实现线性回归方法对其进行拟合'''


# 1. 创建自定义数据集
# 生成一些线性数据,加入一些噪声
np.random.seed(0)  # 设置随机种子,确保结果可复现
X = np.random.rand(100, 1) * 10  # 生成10个随机数,范围在0到10之间
y = 3 * X + 2 + np.random.randn(100, 1) * 2  # 线性关系 y = 3x + 2,加入噪声

# 2. 划分数据集(测试集30%,训练集70%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. 创建线性回归模型
model = LinearRegression()

# 4. 拟合模型
model.fit(X_train, y_train)

# 5. 使用模型进行预测
y_pred = model.predict(X_test)

# 6. 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差 (MSE): {mse}")

# 7. 可视化结果
plt.scatter(X, y, color='blue', label='point')
plt.plot(X_test, y_pred, color='red', label='line')
plt.xlabel('X')
plt.ylabel('y')
plt.title('show')
plt.legend()
plt.show()

4. 总结

通过以上步骤,我们成功地使用 scikit-learn 实现了一个简单的线性回归模型。我们从数据准备开始,逐步完成了模型的训练、评估和可视化。线性回归虽然简单,但它为理解更复杂的机器学习算法奠定了基础。

如果你对线性回归感兴趣,可以尝试以下扩展:

  • 调整模型参数,观察对结果的影响。

  • 学习其他回归算法

希望这篇文章对你有所帮助!

相关推荐
二川bro14 分钟前
Python在AI领域应用全景:2025趋势与案例
开发语言·人工智能·python
棒棒的皮皮32 分钟前
【Python】Open3d用于3D测高项目
python·3d·open3d
CodeLongBear41 分钟前
Python数据分析: 数据可视化入门:Matplotlib基础操作与多坐标系实战
python·信息可视化·数据分析
李晨卓1 小时前
python学习之不同储存方式的操作方法
python·代码规范
站大爷IP1 小时前
实战:爬取某联招聘职位需求并生成词云——从零开始的完整指南
python
deephub1 小时前
从零开始:用Python和Gemini 3四步搭建你自己的AI Agent
人工智能·python·大语言模型·agent
咕白m6251 小时前
Python 实现 PDF 页面旋转
python
c***87192 小时前
Flask:后端框架使用
后端·python·flask
Q_Q5110082853 小时前
python+django/flask的情绪宣泄系统
spring boot·python·pycharm·django·flask·node.js·php
撸码猿3 小时前
《Python AI入门》第9章 让机器读懂文字——NLP基础与情感分析实战
人工智能·python·自然语言处理