【机器学习-二-监督学习& 波士顿房价预测实战】

监督学习

什么是监督学习

监督学习最关键 的一个特征就是会给机器学习算法正确答案。这个意思就是,在使用机器学习算法的时候,会给算法一对 输入,这个输入包括:input x,以及 对应的期望输出output y(也就是所谓的标签label),通过这种学习,最终算法会在给定一个输入x的时候,预测对应的输出。

下面是监督学习的例子:

比如输入一个文本,让算法预测,这个正面还是负面评价

比如输入邮件,让算法预测,这是垃圾邮件还是正常邮件

比如输入用户信息和广告,预测用户是否会点击

比如输入雷达影像,输出其他汽车的位置

下面深入了解下监督学习

监督学习

我们训练一个算法,预测房价,首先我们需要收集一些数据,比如房屋的面积和房价,数据看起来是这样的:

有了这些数据以后,想预测比如房屋大小在750的时候,房子的价格大概是多少的时候,应该怎么做呢?

首先是把这些数据拟合成一条直线,根据这条直线就可以计算出数据在其他值的价格。

当然这条拟合线并不一定是直线,也有可能是曲线,后面的章节会学习到如何选用直线或者曲线或者更复杂的线来拟合这些数据。

回归

上面这种特定类型算法就叫做回归。

这种算法的学习任务就是要预测一个值,这个值有无限可能,可能是任何一个数字。这是回归任务的重要特征。

分类

还有一种监督学习方法,叫做分类。

比如输入一个文本,让机器判定这个评价是正面的还是负面的。

比如:今天电影很好看。这是正面的

比如:电影情节拖沓,漫长冗余。这个评价就是负面的。

这种分类通常是拟合一条线或者更复杂的函数,来划定区域,在某个特定的区域是一种类型,另外的区域就是另外的类型:

这种算法的学习任务,输出只有几种类型,当然分类可以超过三种或者众多种类,但是都是有限的集合。不像是回归,有无限可能。

波士顿房价预测-实战

下面是波士顿房价预测实战,使用sklearn库,并使用KNN LINEAR等算法来预测房价

加载模块

python 复制代码
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split  # 对数据集切分
from sklearn.metrics import r2_score

# 机器算法模型
from sklearn.neighbors import KNeighborsRegressor  # KNN,即K近邻算法
from sklearn.linear_model import LinearRegression  # 多元线性回归算法
from sklearn.linear_model import Ridge  # 线性回归算法Ridge回归,岭回归
from sklearn.linear_model import Lasso  # 线性回归算法Lasso回归,可用作特征筛选
from sklearn.tree import DecisionTreeRegressor  # 决策树,既可以做分类也可以做回归(本文主要用于分类问题)
from sklearn.svm import SVR  # 支持向量机

import pandas as pd
import numpy as np

读取数据

python 复制代码
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]
print(data.shape)
# 切割数据样本集合测试集
X_train, x_test, y_train, y_true = train_test_split(data, target, test_size=0.2)  # 20%测试集;80%训练集
# 可视化
data_df = pd.DataFrame(data)
data_df['房价值'] = target
print(data_df.head(10))

创建KNN Linear等学习模型&训练模型

python 复制代码
# 创建学习模型
knn = KNeighborsRegressor()
linear = LinearRegression()
ridge = Ridge()
lasso = Lasso()
decision = DecisionTreeRegressor()
svr = SVR()

# 训练模型
knn.fit(X_train, y_train)  # 学习率、惩罚项都封装好了
linear.fit(X_train, y_train)
ridge.fit(X_train, y_train)
lasso.fit(X_train, y_train)
decision.fit(X_train, y_train)
svr.fit(X_train, y_train)

预测数据

python 复制代码
y_pre_knn = knn.predict(x_test)
y_pre_linear = linear.predict(x_test)
y_pre_ridge = ridge.predict(x_test)
y_pre_lasso = lasso.predict(x_test)
y_pre_decision = decision.predict(x_test)
y_pre_svr = svr.predict(x_test)

评分以及绘图

python 复制代码
knn_score = r2_score(y_true, y_pre_knn)
linear_score = r2_score(y_true, y_pre_linear)
ridge_score = r2_score(y_true, y_pre_ridge)
lasso_score = r2_score(y_true, y_pre_lasso)
decision_score = r2_score(y_true, y_pre_decision)
svr_score = r2_score(y_true, y_pre_svr)

# 绘图
# KNN
plt.plot(y_true, label='true')
plt.plot(y_pre_knn, label='knn')
plt.legend()

# Linear
plt.plot(y_true, label='true')
plt.plot(y_pre_linear, label='linear')
plt.legend()

# Ridge
plt.plot(y_true, label='true')
plt.plot(y_pre_ridge, label='ridge')
plt.legend()

# Lasso
plt.plot(y_true, label='true')
plt.plot(y_pre_lasso, label='lasso')
plt.legend()

# Decision
plt.plot(y_true, label='true')
plt.plot(y_pre_decision, label='decision')
plt.legend()

# SVR
plt.plot(y_true, label='true')
plt.plot(y_pre_svr, label='svr')
plt.legend()

plt.show()

最终结果

简单学习后,效果还是不错的。

相关推荐
丝斯20111 分钟前
AI学习笔记整理(21)—— AI核心技术(深度学习5)
人工智能·笔记·学习
SKYDROID云卓小助手6 分钟前
三轴云台之控制协同技术
服务器·网络·图像处理·人工智能·算法
q***01777 分钟前
Java进阶学习之路
java·开发语言·学习
阿宁又菜又爱玩35 分钟前
MySQL基础学习
数据库·学习·mysql
信也科技布道师35 分钟前
当AMIS遇见AI智能体:如何为低代码开发装上“智慧大脑”?
人工智能·低代码
qq_5710993542 分钟前
学习周报二十四
学习
零匠学堂202542 分钟前
移动学习平台与在线学习平台是什么?主要有哪些功能?
java·spring boot·学习
szxinmai主板定制专家1 小时前
柔宇柔性显示屏+x86、arm显示解决方案,还有库存
arm开发·人工智能·fpga开发
一个处女座的程序猿1 小时前
AI之PaperTool:Aella Science Dataset Explorer(LAION )的简介、安装和使用方法、案例应用之详细攻略
人工智能·papertool·aella science
冴羽1 小时前
一次找齐!1000 个 Nano Banana Pro 提示词
人工智能·aigc·gemini