机器学习(3)-- 一元线性回归

文章目录

线性回归

线性回归算法是一种用于预测一个或多个自变量(解释变量)与因变量(响应变量)之间关系的统计方法。这种方法基于线性假设,即因变量是自变量的线性组合加上一个误差项。

基本原理:线性回归的目标是找到一条最佳的直线(或超平面,在多维空间中),使得这条直线上的点到实际数据点的距离(通常是垂直距离)最小。这条最佳直线由系数 (也称为权重)和截距确定,系数表示自变量对因变量的影响程度,截距是当所有自变量都为0时因变量的值。

本篇我们来学习如何实现一元线性回归,对于算法模型我们依旧从三个方面来实现它:

  1. 训练模型
  2. 测试模型
  3. 线性回归方程
  4. 测试实用性

训练模型

  1. 收集数据

收集到的一元数据:

链接:训练数据

提取码:axwz

  1. 读取数据

对于表格型数据,用pandas读取处理比较好:

python 复制代码
import pandas as pd
data = pd.read_csv("data.csv")
  1. 绘制散点图

观察数据分布,可能图像无法显示出来,没关系,小bug。

python 复制代码
#绘制散点图
from matplotlib import pyplot as plt
plt.scatter(data.广告投入,data.销售额)
plt.show()
  1. 查看相关系数

查看数据对结果的影响程度,若是影响程度很低的话可以进行特征选择,即将影响小的数据去除掉:

python 复制代码
corr = data.corr()
  1. 建立模型

这里我们使用sklearn中的线性回归模型:

python 复制代码
from sklearn.linear_model import LinearRegression
#估计模型参数,建立回归模型
lr = LinearRegression()
x = data[['广告投入']]
y = data[['销售额']]
lr.fit(x,y) #训练模型

测试模型

我们就将训练的数据本身放进模型中测试看看,他对本身训练的数据测试结果准确率如何:

python 复制代码
result  =lr.predict(x) #预测模型结果
score = lr.score(x,y) #模型测试准确率
print(score)
---------------
0.8225092881166945

模型准确率达到要求之后,我们可一将线性模型的回归方程式写出来。

线性回归方程

我们可以得到具体的线性回归表达式:

python 复制代码
#round是用来对浮点数进行四舍五入到指定的小数位数
#模型训练完成之后,调试模式下,模型标签中有intercept_,以及coef_参数
a = round(lr.intercept_[0],2)  # 查看截距
b = round(lr.coef_[0][0],2)    # 查看斜率
print("线性回归模型为:y = {}x + {}.".format(b,a))
------------------------------
线性回归模型为:y = 3.74x + -36.36.

测试实用性

我们将广告投入分别为40,45,50时,放进模型中,求出它们对应的销售额结果:

python 复制代码
predict = lr.predict([[40],[45],[50]])
print(predict)
------------------
[[113.15418502]
 [131.84361233]
 [150.53303965]]

这样我们就完整的实现了一元线性回归。

总结

本篇介绍了如何实现一元线性回归,其中需要注意的是,对于相关系数过小的数据,我们要进行选择调整。

相关推荐
说私域2 分钟前
AI智能名片链动2+1模式小程序在消费者商家全链路互动中的应用研究
大数据·人工智能·小程序·流量运营·私域运营
千流出海3 分钟前
谷歌和苹果应用商店发现数十款AI去衣应用
人工智能
老鼠只爱大米4 分钟前
LeetCode经典算法面试题 #104:二叉树的最大深度(深度优先搜索、广度优先搜索等多种实现方案详细解析)
算法·leetcode·二叉树·dfs·bfs·深度优先搜索·广度优先搜索
疯狂的喵5 分钟前
分布式系统监控工具
开发语言·c++·算法
爱尔兰极光7 分钟前
LeetCode热题100--两数之和
算法·leetcode·职场和发展
SelectDB技术团队8 分钟前
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
数据库·数据仓库·人工智能·ai·apache
橘子师兄9 分钟前
C++AI大模型接入SDK—Genimi接入封装
c++·人工智能·后端
向上的车轮10 分钟前
飞桨(PaddlePaddle):OCR识别原理
人工智能·ocr·paddlepaddle
2301_8223827610 分钟前
模板编译期排序算法
开发语言·c++·算法
njsgcs14 分钟前
langchain框架怎么让 Skills 与 MCP(tools)协同使用
人工智能·langchain·skills