第L2周:机器学习-线性回归

目标

  1. 学习简单线性回归模型和多元线性回归模型

  2. 通过代码实现:通过鸢尾花花瓣长度预测花瓣宽度
    具体实现
    (一)环境
    语言环境 :Python 3.10
    编 译 器: PyCharm
    框 架 :scikit-learn
    (二)具体步骤:
    造个数据集,内容格式如下:

    导入库

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt

简单线性回归

复制代码
# 加载数据
dataset = pd.read_csv('./studentscores.csv')  
print(dataset)
复制代码
# 取第一列Hours的值
X = dataset.iloc[:, :1].values  
print(X)
复制代码
# 取第二列Scores的值
Y = dataset.iloc[:, 1].values  
print(Y)

很好奇,看看X,Y的形状:

复制代码
print(X.shape)
print(Y.shape)

看来两者是一样的形状和大小 。继续:

复制代码
# 切分一下数据集,75%用来训练,25%用来测试
from sklearn.model_selection import  train_test_split  
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,  
                                                    test_size=1/4,  
                                                    random_state=0)

检验一下切分的成果:

复制代码
print(X_train, X_train.shape)
复制代码
print(Y_train, Y_train.shape)
复制代码
print(X_test, X_test.shape)
print(Y_test, Y_test.shape)

做简单线性回归

复制代码
# 简单线性回归  
from sklearn.linear_model import LinearRegression  
  
regressor = LinearRegression()  
regressor = regressor.fit(X_train, Y_train)

# 预测一下结果  
Y_pred = regressor.predict(X_test)  
  
print(Y_pred, Y_pred.shape)

这个预测结果和上面的Y_test比较一下,可以看到两者之间的差距以及相似性。我们进行可视化直观看看:

复制代码
# 训练集可视化  
plt.scatter(X_train, Y_train, color='red')  
plt.plot(X_train, regressor.predict(X_train), color='blue')  
plt.show()

**

复制代码
# 测试集预测结果可视化  
plt.scatter(X_test, Y_test, color='red')  
plt.plot(X_test, regressor.predict(X_test), color='blue')  
plt.show()

红点是实际分布,蓝色线是预测趋势线。两者是趋于一致的,预测的偏离并不大。

注:plt.scatter()绘制散点图,plt.plot()绘制折线图。

下面看看多元线性回归,通过鸢尾花花瓣长度预测花瓣宽度

  1. 导入数据集

    url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
    names = ['花萼-length', '花萼-width', '花瓣-length', '花瓣-width', 'class']
    dataset = pd.read_csv(url, names=names)
    print(dataset)

  1. 分析一下数据

    plt.plot(dataset['花萼-length'], dataset['花瓣-width'], 'x', label="marker='x'")
    plt.plot(dataset['花萼-width'], dataset['花瓣-width'], 'o', label="marker='o'")
    plt.plot(dataset['花瓣-length'], dataset['花瓣-width'], 'v', label="marker='v'")
    plt.legend(numpoints=1)
    plt.show()

  1. 取数据

    取[花萼-width : 花瓣-length]

    X = dataset.iloc[:, [1, 2]].values
    print(X, X.shape)


复制代码
Y = dataset.iloc[:, 3].values  # 取花瓣-width值  
print(Y, Y.shape)
  1. 将dataset切分成训练数据集和测试数据集

    from sklearn.model_selection import train_test_split
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
    test_size=0.2,
    random_state=0)

  2. 训练多元线性回归模型

    from sklearn.linear_model import LinearRegression
    regressor = LinearRegression()
    regressor.fit(X_train, Y_train)

  3. 在测试集上预测结果

    y_pred = regressor.predict(X_test)
    print(y_pred)

  1. 把测试集预测结果可视化

    plt.scatter(Y_test, y_pred, color='red')
    plt.plot(Y_test, Y_test, color='blue') # 假设预测100%正确,那么走势是蓝线
    plt.plot(Y_test)
    plt.xlabel("True")
    plt.ylabel("Prediction")
    plt.show()

相关推荐
PM老周3 分钟前
2026年Confluence替代软件:企业知识库选型指南
前端·人工智能·编辑器·团队开发
AIGC_ZY11 分钟前
从LLM2Vec到语义对齐:大语言模型作为文本编码器的双重突破
人工智能·语言模型·自然语言处理
猿小羽13 分钟前
深入解析与实践:Prompt Engineering
人工智能·深度学习·ai·大模型·nlp·实践·prompt engineering
小朱笼包15 分钟前
小程序实现对接百度AI大模型,通过websocket连接进行百度实时语音识别,将返回的文字调用AI大模型API获得返回的消息内容进行文字转语音朗诵并操作
人工智能·websocket·百度·小程序·语音识别
Elastic 中国社区官方博客16 分钟前
Elasticsearch:Apache Lucene 2025 年终总结
大数据·人工智能·elasticsearch·搜索引擎·apache·lucene
deephub17 分钟前
让 Q 值估计更准确:从 DQN 到 Double DQN 的改进方案
人工智能·pytorch·深度学习·强化学习
Dyanic17 分钟前
通用图像融合方法利用梯度迁移学习与融合规则展开
人工智能·机器学习·迁移学习
IvanCodes17 分钟前
Clawdbot安装部署详细教程
人工智能·ai·agent
Yeats_Liao17 分钟前
负载均衡设计:多节点集群下的请求分发与资源调度
运维·人工智能·深度学习·机器学习·华为·负载均衡
粉色挖掘机18 分钟前
AI算子的分类及常见算子介绍
人工智能·分类·数据挖掘