使用 scikit-learn 实现简单的线性回归案例

1. 什么是线性回归?

线性回归是一种预测模型,它通过拟合数据点到一条直线上,来预测一个因变量(目标值)与一个或多个自变量(特征)之间的关系。它的数学表达式通常为:

其中,y 是目标值,x1​,x2​,...,xn​ 是特征,而 β0​,β1​,...,βn​ 是模型的参数。

在实际应用中,线性回归可以帮助我们解决许多问题,比如房价预测、销售量预测等。

2. scikit-learn 简介

scikit-learn 是一个开源的 Python 机器学习库,它提供了简单而高效的工具用于数据挖掘和数据分析。它支持多种机器学习算法,包括线性回归、逻辑回归、决策树等。今天,我们将重点使用它的 LinearRegression 模块。

3. 实现线性回归的步骤

接下来,我们将通过一个简单的示例,展示如何使用 scikit-learn 实现线性回归。我们将从数据准备开始,逐步完成模型的训练、评估和可视化。

3.1 准备数据

首先,我们需要准备数据。为了简单起见,我们将生成一组简单的线性数据,并加入一些随机噪声。

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 生成数据
np.random.seed(0)  # 设置随机种子,确保结果可复现
X = np.random.rand(100, 1) * 10  # 生成 100 个随机数,范围在 0 到 10 之间
y = 3 * X + 2 + np.random.randn(100, 1) * 2  # 线性关系 y = 3x + 2,加入噪声

3.2 划分数据集

为了评估模型的性能,我们需要将数据集划分为训练集和测试集。scikit-learn 提供了 train_test_split 函数,可以轻松完成这一任务。

python 复制代码
# 2. 划分数据集(测试集30%,训练集70%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

这里,我们将 30% 的数据用作测试集,其余用作训练集。

3.3 创建线性回归模型

接下来,我们使用 LinearRegression 创建一个线性回归模型,并使用训练集数据对其进行拟合。

python 复制代码
# 3. 创建线性回归模型
model = LinearRegression()

# 4. 拟合模型
model.fit(X_train, y_train)

3.4 评估模型

模型训练完成后,我们需要使用测试集对其进行评估,这里我们使用均方误差(MSE)来评估。

python 复制代码
# 5. 使用模型进行预测
y_pred = model.predict(X_test)

# 6. 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差 (MSE): {mse}")

MSE 越小,模型的预测误差越小,模型的拟合效果越好。

3.5 可视化结果

最后,我们使用 matplotlib 绘制拟合结果,直观展示模型的性能。

python 复制代码
# 7. 可视化结果
plt.scatter(X, y, color='blue', label='point')
plt.plot(X_test, y_pred, color='red', label='line')
plt.xlabel('X')
plt.ylabel('y')
plt.title('show')
plt.legend()
plt.show()

运行上述代码后,你会得到下图:

3.6完整代码:

python 复制代码
# 导入所需库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

'''自定义数据集使用scikit-learn中的包实现线性回归方法对其进行拟合'''


# 1. 创建自定义数据集
# 生成一些线性数据,加入一些噪声
np.random.seed(0)  # 设置随机种子,确保结果可复现
X = np.random.rand(100, 1) * 10  # 生成10个随机数,范围在0到10之间
y = 3 * X + 2 + np.random.randn(100, 1) * 2  # 线性关系 y = 3x + 2,加入噪声

# 2. 划分数据集(测试集30%,训练集70%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. 创建线性回归模型
model = LinearRegression()

# 4. 拟合模型
model.fit(X_train, y_train)

# 5. 使用模型进行预测
y_pred = model.predict(X_test)

# 6. 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差 (MSE): {mse}")

# 7. 可视化结果
plt.scatter(X, y, color='blue', label='point')
plt.plot(X_test, y_pred, color='red', label='line')
plt.xlabel('X')
plt.ylabel('y')
plt.title('show')
plt.legend()
plt.show()

4. 总结

通过以上步骤,我们成功地使用 scikit-learn 实现了一个简单的线性回归模型。我们从数据准备开始,逐步完成了模型的训练、评估和可视化。线性回归虽然简单,但它为理解更复杂的机器学习算法奠定了基础。

如果你对线性回归感兴趣,可以尝试以下扩展:

  • 调整模型参数,观察对结果的影响。

  • 学习其他回归算法

希望这篇文章对你有所帮助!

相关推荐
__如风__26 分钟前
Nuitka打包python脚本
开发语言·python
小王子10241 小时前
设计模式Python版 抽象工厂模式
python·设计模式·抽象工厂模式
Zda天天爱打卡1 小时前
【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】1.30 性能巅峰:NumPy代码优化全攻略
开发语言·python·numpy
hunter2062061 小时前
如何把一个python文件打包成一步一步安装的可执行程序
python
haidizym2 小时前
(笔记+作业)书生大模型实战营春节卷王班---L0G2000 Python 基础知识
开发语言·笔记·python
酷爱码2 小时前
python flask 使用 redis写一个例子
redis·python·flask
hunter2062063 小时前
详解python的单例模式
python
愈努力俞幸运4 小时前
python selenium 用法教程
python·selenium
dreadp4 小时前
解锁豆瓣高清海报:深度爬虫与requests进阶之路
前端·爬虫·python·beautifulsoup·github·requests