目录

【ML练习】决策树

一、决策树算法概述

二、代码实现

代码目标:我们希望通过鸢尾花数据,训练一个决策树模型,之后应用该模型,可以根据鸢尾花的四个特征去预测它的类别。

1. 分类树实现

python 复制代码
import pandas as pd
import numpy as np

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  
names = ['花萼-length', '花萼-width', '花瓣-length', '花瓣-width', 'class'] 

dataset = pd.read_csv(url, names=names)
dataset

输出:

python 复制代码
X = dataset.iloc[ : ,[0,1,2,3]].values
Y = dataset.iloc[ : ,  4].values
python 复制代码
from sklearn import tree
from sklearn.datasets import load_iris

clf = tree.DecisionTreeClassifier()  # sk-learn的决策树模型
clf = clf.fit(X, Y)                  # 用数据训练树模型构建()
r   = tree.export_text(clf)
print(r)

输出:

python 复制代码
text_x = X[[0,1,50,51,100,101], :]
pred_target_prob = clf.predict_proba(text_x)        # 预测类别概率
pred_target = clf.predict(text_x)              # 预测类别
python 复制代码
print("\n===模型======")
print(r)
print("\n===测试数据:=====")
print(text_x)
print("\n===预测所属类别概率:=====")
print(pred_target_prob)
print("\n===预测所属类别:======")
print(pred_target)

输出:

2. 回归树实现

python 复制代码
import pandas as pd
import numpy as np

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  
names = ['花萼-length', '花萼-width', '花瓣-length', '花瓣-width', 'class'] 

dataset = pd.read_csv(url, names=names)
dataset

输出:

python 复制代码
X = dataset.iloc[ : ,[0,1,2]].values
Y = dataset.iloc[ : ,  3].values
python 复制代码
from sklearn import tree
from sklearn.datasets import load_iris

clf = tree.DecisionTreeRegressor()         # sk-learn的决策树模型
clf = clf.fit(X, Y)        # 用数据训练树模型构建()
r   = tree.export_text(clf)
python 复制代码
test_x = X[[0,1,50,51,100,101], :]
test_y = Y[[0,1,50,51,100,101]]
pred_target = clf.predict(test_x)  # 预测y

df = pd.DataFrame()
df["原y"] = test_y
df["预测y"] = pred_target
python 复制代码
print("\n===模型======")
# print(r)
print("\n===预测结果======")
print(df)

输出:

三、总结

在使用决策树时,首先需确认分类及预测的对象,另外在处理缺失值时,也需注意。

本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
做人求其滴3 分钟前
蓝桥杯C/C++省赛/国赛注意事项及运行环境配置
算法·蓝桥杯·编译器·c/c++·算法竞赛·运行环境·第十六届
搏博11 分钟前
在WPS中通过JavaScript宏(JSA)调用DeepSeek官网API优化文档教程
javascript·人工智能·windows·深度学习·机器学习·wps
写个博客23 分钟前
代码随想录算法训练营第十五天
算法
铃煦37 分钟前
《算法笔记》3.3小节——入门模拟->图形输出
笔记·算法·图论
LuckyLay41 分钟前
LeetCode算法题(Go语言实现)_39
算法·leetcode·golang
uhakadotcom1 小时前
NVIDIA Resiliency Extension(NVRx)简介:提高AI模型训练的容错能力
算法·面试
Tisfy1 小时前
LeetCode 2843.统计对称整数的数目:字符串数字转换
算法·leetcode·字符串·题解
Yyq130208696821 小时前
KTH5772 系列游戏手柄摇杆专用3D 霍尔位置传感器
算法·游戏·3d·小杨13020869682
KyollBM1 小时前
【CF】Day30——Codeforces Round 824 (Div. 2) C + Codeforces Round 825 (Div. 2) BC1
算法
DataFunTalk1 小时前
复旦肖仰华:大模型的数据科学!
前端·后端·算法