【菜菜的sklearn机器学习】(1)决策树

课程学习:1 2. 决策树:概述_哔哩哔哩_bilibili

课程1 -决策树DecisionTreeClassifier

决策树的基本流程 (找特征-计算不纯度-分)、八个参数、一个属性、四个接口、决策树绘图export_graphviz

八个参数:criterion、2随机参数(random_state、split)、

5剪枝参数(max_depth、min_samples_leaf、min_sample_split、max_feature、min_purity_decrease)

一个属性:feature_importances_

四个接口:fit、score、apply、predict

决策树:从一系列有特征和标签的数据中总结出决策规则。(表格转树)

非参数(不需要太多预处理)的有监督学习(输入标签)

Q1如何找出最佳节点和最佳分支

Q2如何让决策树停止生长 防止过拟合

sklearn.tree

建模的基本流程:

①实例化,建立模型评估对象:明确实例化时需要使用的参数

②通过模型接口训练模型(训练集放入1的评估对象):数据属性、数据接口

③通过模型接口提取需要的信息

from sklearn import tree

clf = tree.DecisionTreeClassifier()

clf = clf.fit(x_train, y_train)

result = clf.score(x_test, y_test)

DecisionTreeClassifier与红酒数据集

++++1、重要参数criterion:不纯度计算++++,越低则对训练集的拟合越好,需要不断优化

不纯度是基于节点计算的,子节点一定低于父节点。

计算全部特征的不纯度指标,选取不纯度最优的特征来分枝,在该特征分枝下再次计算不纯度,再选取最优,再...

输入:

entropy信息熵:父节点与子节点之间的信息增益,决策树的拟合程度不够的时候用

gini基尼系数:常用,默认,数据维度大,噪音大的时候用

数据维度大的时候用gini,维度低数据清晰时两者没有区别。可以都试试,不好就换另一个。

++++2、Random_state&splitter:控制决策树的随机性++++

Random_state用来设置分枝中的随机模式的参数,默认None,再高纬度时随机性表现明显,低纬度随机性几乎不显现(鸢尾花数据集4个特征)

Splitter也是用来控制随机性,best和random(特征很多,容易过拟合时)

3、剪枝参数

Max_depth:限制树的最大深度,超过的全剪掉;最广泛的剪枝参数,高维度低样本量时非常有效,建议从3开始. 一般用作树的精修

Min_samples_leaf一个节点在分支后的每个子节点都必须包含至少msl个训练样本,否则分支就不会发生;

min_samples_split:

max_features:限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃

和max_depth异曲同工

Min_impurity_decrease限制信息增益的大小,小于特定值的分枝不会发生

如何确定参数值呢?用matplotlib绘图

但是那么多参数,不可能一一绘制分别选最佳=>后面会调多参方法

加参不一定效果变好,数据本身

6、class_weight & min_weight_fraction_leaf:控制目标权重

7、重要属性和接口

所有接口中要求输入Xtrain和Xtest的部分,输入的特征矩阵必须至少是一个二维矩阵,sklearn不接受任何一维矩阵作为特征矩阵被输入。如果输入数据只有一个特征,那必须使用reshape(-1,1)来给矩阵增维;如果数据只有一个特征和一个样本,用reshape(1,-1)来给数据增维。

Clf.apply(Xtest)返回每个测试样本所在叶子节点的索引

Clf.predict返回每个测试样本的分类/回归结果

8、分类树不擅长环形数据。当一个模型怎么调整都不行的时候,可以换模型。

最擅长月亮型数据的是最近邻算法,RBF支持向量机和高斯过程;

最擅长环形数据的是最近邻算法和高斯过程;

最擅长对半分数据的是朴素贝叶斯、神经网络和随机森林。

相关推荐
Qspace丨轻空间几秒前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
没有不重的名么2 分钟前
门控循环单元GRU
人工智能·深度学习·gru
测试19985 分钟前
2024软件测试面试热点问题
自动化测试·软件测试·python·测试工具·面试·职场和发展·压力测试
love_and_hope5 分钟前
Pytorch学习--神经网络--搭建小实战(手撕CIFAR 10 model structure)和 Sequential 的使用
人工智能·pytorch·python·深度学习·学习
2403_8757368721 分钟前
道品科技智慧农业中的自动气象检测站
网络·人工智能·智慧城市
海阔天空_201334 分钟前
Python pyautogui库:自动化操作的强大工具
运维·开发语言·python·青少年编程·自动化
零意@42 分钟前
ubuntu切换不同版本的python
windows·python·ubuntu
学术头条1 小时前
AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告
人工智能·科技·深度学习·语言模型
准橙考典1 小时前
怎么能更好的通过驾考呢?
人工智能·笔记·自动驾驶·汽车·学习方法
ai_xiaogui1 小时前
AIStarter教程:快速学会卸载AI项目【AI项目管理平台】
人工智能·ai作画·语音识别·ai写作·ai软件