5.波士顿房价预测(KNN,决策树,线性回归)

波士顿房价预测

  • [1. 机器学习中的任务分类](#1. 机器学习中的任务分类)
  • [2. 波士顿房价预测](#2. 波士顿房价预测)
    • [2.1 分析数据](#2.1 分析数据)
    • [2.2 比较 MAE 和 MSE](#2.2 比较 MAE 和 MSE)
    • [2.2 代码](#2.2 代码)

1. 机器学习中的任务分类

  • 有监督学习(supervised):有特征也有标签
    • 分类问题
      • classification
      • 预测离散量
    • 回归问题
      • regression
      • 预测连续量
  • 无监督学习(unsupervised):无监督学习
    • 聚类算法
      • KMeans
    • 降维算法
      • PCA
  • 自监督学习:
    • 大模型预训练,使用自监督
    • 输入文本,自己挖空填空

2. 波士顿房价预测

2.1 分析数据

  • 观察数据,最后一列代表房价,是连续量,所以房价预测是一个回归问题。
    24.00
    21.60
    34.70
    33.40
    36.20
    28.70
    22.90
    27.10

2.2 比较 MAE 和 MSE

  • 这里模型的评估与分类问题不同,此处采用的是平均方差误差
  • MAE 平均绝对误差 指的是计算 (预测值-真实值)平均值 ,这种方法可以直观地感受到误差的大小,也有实际的物理意义,更便于理解。但是绝对值会导致函数出现 不可导点 ,这将会给后续的计算带来很大麻烦;
  • MSE 平均平方误差 就是 计算 (预测值-真实值)平方平均值, 这样得到的结果并无实际意义,但是解决了不可导点的问题,从计算角度来讲,更容易求导,简化了计算。
  • 虽然我们无法从 MSE 的数值上直接得到有效信息,但是却可以通过比较来评估模型的好坏,信息是在比较中产生的。

2.2 代码

  • 加载和拆分数据
python 复制代码
X=[]
y=[]
with open('housing.data',mode='r',encoding='utf8') as f:
    for line in f:
        line = line.strip()
        if line:
            line = line.split(' ')
            line = [float(ele) for ele in line if ele]
            features=line[:-1]
            label=line[-1]
            X.append(features)
            y.append(label)

import numpy as np
X=np.array(X)
y=np.array(y)
print(X.shape,y.shape)  #:(506, 13) (506,)  #:(506, 13) (506,)

# 拆分数据
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.15,random_state=0)
  • KNN
python 复制代码
# KNN
from sklearn.neighbors import KNeighborsRegressor
knn=KNeighborsRegressor()
knn.fit(X=X_train,y=y_train)
pred = knn.predict(X_test)
# MAE 平均绝对误差(有不可导点)
# acc1=np.abs(pred-y_test).mean()
# MSE 平均平方误差(一笔糊涂账,从计算角度来讲,求导方便)
print('均方差',((pred-y_test)**2).mean())  #:均方差 47.64864736842107
  • 决策树
python 复制代码
# 决策树
from sklearn.tree import DecisionTreeRegressor
dtr=DecisionTreeRegressor()
dtr.fit(X_train,y_train)
pred=dtr.predict(X_test)
print('均方差',((pred-y_test)**2).mean())  #:均方差 32.76315789473684
  • 线性回归
    y = F ( X ) = x 0 w 0 + x 1 w 1 + x 2 w 2 + . . . + x 12 w 12 y=F(X)=x_0w_0+x_1w_1+x_2w_2+...+x_{12}w_{12} y=F(X)=x0w0+x1w1+x2w2+...+x12w12
python 复制代码
# 线性回归
from sklearn.linear_model import LinearRegression
lr=LinearRegression()
lr.fit(X_train,y_train)
pred=lr.predict(X_test)
MSE=((pred-y_test)**2).mean()
print('系数:',lr.coef_,'偏置',lr.intercept_)  
print('误差:',MSE)  #:误差: 33.12038170826738

输出:
系数: [-1.24536078e-01 4.06088227e-02 5.56827689e-03 2.17301021e+00
-1.72015611e+01 4.02315239e+00 -4.62527553e-03 -1.39681074e+00
2.84078987e-01 -1.17305066e-02 -1.06970964e+00 1.02237522e-02
-4.54390752e-01] 偏置 36.0926776176116

相关推荐
吃好睡好便好38 分钟前
在Matlab中绘制横直方图
开发语言·学习·算法·matlab
仰泳之鹅1 小时前
【C语言】自定义数据类型2——联合体与枚举
c语言·开发语言·算法
x_yeyue3 小时前
三角形数
笔记·算法·数论·组合数学
念何架构之路4 小时前
Go语言加密算法
数据结构·算法·哈希算法
AI科技星4 小时前
《数学公理体系·第三部·数术几何》(2026 年版)
c语言·开发语言·线性代数·算法·矩阵·量子计算·agi
失去的青春---夕阳下的奔跑5 小时前
560. 和为 K 的子数组
数据结构·算法·leetcode
黎阳之光5 小时前
黎阳之光:以视频孪生重构智慧医院信息化,打造高标项目核心竞争力
大数据·人工智能·物联网·算法·数字孪生
丷丩6 小时前
三级缓存下MVT地图瓦片服务性能优化策略
算法·缓存·性能优化·gis·geoai-up
m0_629494736 小时前
LeetCode 热题 100-----25.回文链表
数据结构·算法·leetcode·链表
ʚ希希ɞ ྀ7 小时前
单词拆分----dp
算法