【机器学习-二-监督学习& 波士顿房价预测实战】

监督学习

什么是监督学习

监督学习最关键 的一个特征就是会给机器学习算法正确答案。这个意思就是,在使用机器学习算法的时候,会给算法一对 输入,这个输入包括:input x,以及 对应的期望输出output y(也就是所谓的标签label),通过这种学习,最终算法会在给定一个输入x的时候,预测对应的输出。

下面是监督学习的例子:

比如输入一个文本,让算法预测,这个正面还是负面评价

比如输入邮件,让算法预测,这是垃圾邮件还是正常邮件

比如输入用户信息和广告,预测用户是否会点击

比如输入雷达影像,输出其他汽车的位置

下面深入了解下监督学习

监督学习

我们训练一个算法,预测房价,首先我们需要收集一些数据,比如房屋的面积和房价,数据看起来是这样的:

有了这些数据以后,想预测比如房屋大小在750的时候,房子的价格大概是多少的时候,应该怎么做呢?

首先是把这些数据拟合成一条直线,根据这条直线就可以计算出数据在其他值的价格。

当然这条拟合线并不一定是直线,也有可能是曲线,后面的章节会学习到如何选用直线或者曲线或者更复杂的线来拟合这些数据。

回归

上面这种特定类型算法就叫做回归。

这种算法的学习任务就是要预测一个值,这个值有无限可能,可能是任何一个数字。这是回归任务的重要特征。

分类

还有一种监督学习方法,叫做分类。

比如输入一个文本,让机器判定这个评价是正面的还是负面的。

比如:今天电影很好看。这是正面的

比如:电影情节拖沓,漫长冗余。这个评价就是负面的。

这种分类通常是拟合一条线或者更复杂的函数,来划定区域,在某个特定的区域是一种类型,另外的区域就是另外的类型:

这种算法的学习任务,输出只有几种类型,当然分类可以超过三种或者众多种类,但是都是有限的集合。不像是回归,有无限可能。

波士顿房价预测-实战

下面是波士顿房价预测实战,使用sklearn库,并使用KNN LINEAR等算法来预测房价

加载模块

python 复制代码
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split  # 对数据集切分
from sklearn.metrics import r2_score

# 机器算法模型
from sklearn.neighbors import KNeighborsRegressor  # KNN,即K近邻算法
from sklearn.linear_model import LinearRegression  # 多元线性回归算法
from sklearn.linear_model import Ridge  # 线性回归算法Ridge回归,岭回归
from sklearn.linear_model import Lasso  # 线性回归算法Lasso回归,可用作特征筛选
from sklearn.tree import DecisionTreeRegressor  # 决策树,既可以做分类也可以做回归(本文主要用于分类问题)
from sklearn.svm import SVR  # 支持向量机

import pandas as pd
import numpy as np

读取数据

python 复制代码
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]
print(data.shape)
# 切割数据样本集合测试集
X_train, x_test, y_train, y_true = train_test_split(data, target, test_size=0.2)  # 20%测试集;80%训练集
# 可视化
data_df = pd.DataFrame(data)
data_df['房价值'] = target
print(data_df.head(10))

创建KNN Linear等学习模型&训练模型

python 复制代码
# 创建学习模型
knn = KNeighborsRegressor()
linear = LinearRegression()
ridge = Ridge()
lasso = Lasso()
decision = DecisionTreeRegressor()
svr = SVR()

# 训练模型
knn.fit(X_train, y_train)  # 学习率、惩罚项都封装好了
linear.fit(X_train, y_train)
ridge.fit(X_train, y_train)
lasso.fit(X_train, y_train)
decision.fit(X_train, y_train)
svr.fit(X_train, y_train)

预测数据

python 复制代码
y_pre_knn = knn.predict(x_test)
y_pre_linear = linear.predict(x_test)
y_pre_ridge = ridge.predict(x_test)
y_pre_lasso = lasso.predict(x_test)
y_pre_decision = decision.predict(x_test)
y_pre_svr = svr.predict(x_test)

评分以及绘图

python 复制代码
knn_score = r2_score(y_true, y_pre_knn)
linear_score = r2_score(y_true, y_pre_linear)
ridge_score = r2_score(y_true, y_pre_ridge)
lasso_score = r2_score(y_true, y_pre_lasso)
decision_score = r2_score(y_true, y_pre_decision)
svr_score = r2_score(y_true, y_pre_svr)

# 绘图
# KNN
plt.plot(y_true, label='true')
plt.plot(y_pre_knn, label='knn')
plt.legend()

# Linear
plt.plot(y_true, label='true')
plt.plot(y_pre_linear, label='linear')
plt.legend()

# Ridge
plt.plot(y_true, label='true')
plt.plot(y_pre_ridge, label='ridge')
plt.legend()

# Lasso
plt.plot(y_true, label='true')
plt.plot(y_pre_lasso, label='lasso')
plt.legend()

# Decision
plt.plot(y_true, label='true')
plt.plot(y_pre_decision, label='decision')
plt.legend()

# SVR
plt.plot(y_true, label='true')
plt.plot(y_pre_svr, label='svr')
plt.legend()

plt.show()

最终结果

简单学习后,效果还是不错的。

相关推荐
好家伙VCC18 分钟前
**神经编码新视角:用Python实现生物启发的神经信号压缩与解码算法**在人工智能飞速发展的今天
java·人工智能·python·算法
Navicat中国18 分钟前
如何使用 Ollama 配置 AI 助手 | Navicat 教程
数据库·人工智能·ai·navicat·ollama
@小匠4 小时前
Read Frog:一款开源的 AI 驱动浏览器语言学习扩展
人工智能·学习
山间小僧6 小时前
「AI学习笔记」RNN
机器学习·aigc·ai编程
网教盟人才服务平台7 小时前
“方班预备班盾立方人才培养计划”正式启动!
大数据·人工智能
芯智工坊8 小时前
第15章 Mosquitto生产环境部署实践
人工智能·mqtt·开源
菜菜艾8 小时前
基于llama.cpp部署私有大模型
linux·运维·服务器·人工智能·ai·云计算·ai编程
TDengine (老段)8 小时前
TDengine IDMP 可视化 —— 分享
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据·时序数据
小真zzz8 小时前
搜极星:第三方多平台中立GEO洞察专家全面解析
人工智能·搜索引擎·seo·geo·中立·第三方平台
GreenTea9 小时前
从 Claw-Code 看 AI 驱动的大型项目开发:2 人 + 10 个自治 Agent 如何产出 48K 行 Rust 代码
前端·人工智能·后端