导入相关库
导入pandas
pandas是Python中用于数据处理和分析的核心库,提供DataFrame数据结构。常用于数据清洗、转换、统计分析等操作。
导入matplotlib.pyplot
matplotlib是Python基础绘图库,pyplot模块提供类似MATLAB的绘图接口。常用于生成折线图、散点图、直方图等可视化图表。
导入LinearRegression
scikit-learn中的线性回归模型,用于建立连续目标变量的预测模型。支持单变量和多变量回归分析。
python
import pandas as pd#pandas基于numpy封装的
from matplotlib import pyplot as plt
from sklearn.linear_model import LinearRegression
读取文件
python
data = pd.read_csv("data.csv")
a = data.广告投入
绘制散点图
python
plt.scatter(data.广告投入, data.销售额)
plt.show()
估计模型参数,建立回归模型
python
lr = LinearRegression()
x = data[['广告投入']]
y = data[['销售额']]
corr = data.corr()#求x和y的相关系数
训练模型
python
lr.fit(x, y)
对回归模型进行检验
python
result = lr.predict(x)
score = lr.score(x, y)
a = round(lr.intercept_[0],2)#查看截距
b = round(lr.coef_[0][0], 2)#查看斜率
print("线性回归模型为:y = {}x + {}.".format(b, a))
注意:此处的score指R方
利用回归模型进行预测
python
predict = lr.predict([[40], [45], [50]])
print(predict)
结果如图:

增加可进行预测的代码
python
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
data = pd.read_csv("data.csv",encoding="utf-8",engine='python')
print("数据基本信息:")
print(data[['广告投入', '销售额']].info()) # 检查数据类型是否为数值型
print("\n数据前5行:")
print(data[['广告投入', '销售额']].head()) # 检查数据格式是否正常
corr = data[['广告投入','销售额']].corr()
print(corr)
line_model = LinearRegression()
train_x = data[['广告投入']]
train_y = data['销售额']
train_x = np.array(train_x)
train_y = np.array(train_y)
line_model.fit(train_x,train_y)
score = line_model.score(train_x,train_y)
a = line_model.coef_
b = line_model.intercept_
print(f"y={a[0]:.2f}x+{b:2f}")
运行结果:
