机器学习——决策树

参数

sklearn.tree.DecisionTreeClassifier 相关参数及说明 ):

类与参数整体

  • 类:sklearn.tree.DecisionTreeClassifier,用于构建决策树分类模型

参数及说明

  1. criterion

    • 功能:采用基尼系数(gini )还是熵(entropy )衡量分裂标准,默认基尼系数
    • 作用:决定如何评估特征分裂的优劣
  2. splitter

    • 可选值:best(在所有特征中找最优切分点 )、random(在部分特征中找切分点 )
    • 说明:默认 best,数据量大时 random 可提升效率
  3. max_features

    • 含义:寻找最优分裂时考虑的特征数量,默认 None(考虑所有特征 ),也可设 log2(取对数 )、sqrt(开平方 )等
    • 场景:特征数少(小于 50 )时一般用默认,按需调整控制特征参与分裂的范围
  4. max_depth

    • 含义:树的最大深度,控制树生长的纵向规模
    • 说明:数据 / 特征少可忽略,样本和特征多时常限制,避免过拟合,未设置则展开到叶子节点纯或达最小样本数
  5. min_samples_split

    • 含义:分裂内部节点所需最小样本数,默认 2
    • 逻辑:样本数少于此值,节点不再分裂,样本量小可不关注,样本量大(数量级高 )建议留意调整
  6. min_samples_leaf

    • 含义:叶子节点最少样本数,限制叶子节点规模
    • 作用:辅助剪枝,样本数不足则和兄弟节点被剪枝,构建树后剪枝阶段起作用
  7. min_weight_fraction_leaf

    • 含义:叶子节点最小样本权重和,默认 0(不考虑权重 )
    • 场景:样本有缺失值、类别分布偏差大时,引入权重需关注此参数,控制叶子节点权重门槛
  8. max_leaf_nodes

    • 含义:最大叶子节点数,限制树的横向规模,默认 None(不限制 )
    • 效果:设值后算法在该数量内找最优树结构,防止过拟合,如设 10 则节点分裂到 10 个叶子后停止
  9. min_impurity_decrease:(原文虽未完整展开说明逻辑,但属于参数之一 )

    • 角色:和决策树生长、不纯度变化关联,影响节点是否分裂
  10. min_impurity_split

    • 含义:限制决策树增长的不纯度阈值(基尼系数、信息增益等指标 )
    • 逻辑:节点不纯度小于此值,不再生成子节点,直接作为叶子节点
  11. class_weight

    • 功能:指定样本各类别权重
    • 作用:防止训练集类别分布不均导致树偏向多数类,可手动设置类别权重平衡影响

这些参数共同控制决策树的结构、生长逻辑、防过拟合策略以及对类别不平衡数据的适配,是使用 sklearn 决策树分类器时调优模型的核心配置项 。

  • class_weight参数 :使用balanced时,算法自动计算权重,样本量少的类别对应样本权重高,用于平衡类别分布影响,防止决策树偏向多数类
  • random_state参数 :设置决策树分枝随机模式,特征数量多时有明显随机性,作用是确保每次运行代码结果相同,控制随机性以实现可复现性 ,属于sklearn决策树模型中影响权重计算和结果可复现性的关键配置 。

python 复制代码
import pandas as pd
from sklearn import tree

# 读取数据
data = pd.read_csv("多元回归.csv")
# data = pd.read_csv("多元回归.csv",encoding='gbk')

# 变量与标签的分离
x = data.iloc[:,:-1]
y = data.iloc[:,-1]

# 实例化一个回归树对象
reg = tree.DecisionTreeRegressor()#修改参数试试效果:ma
reg = reg.fit(x,y)

# 预测
y_pr = reg.predict(x)
print(y_pr)
score = reg.score(x,y)#
print(score)
相关推荐
曦月逸霜19 小时前
啥是RAG 它能干什么?
人工智能·python·机器学习
AI医影跨模态组学19 小时前
Lancet Digit Health(IF=24.1)广东省人民医院刘再毅&南方医科大学南方医院梁莉等团队:基于可解释深度学习模型预测胶质瘤分子改变
人工智能·深度学习·论文·医学·医学影像·影像组学
应用市场19 小时前
AI 编程助手三强争霸(2026 版):Claude、Gemini、GPT 各自擅长什么?
人工智能·gpt
CSND74020 小时前
YOLO resume断点续训(不能用官方的权重,是自己训练一半生成的last.pt)
深度学习·yolo·机器学习
AC赳赳老秦20 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
脑极体20 小时前
从Token消耗到DAA增长,AI价值标尺正在重构
人工智能·重构
csdn小瓯20 小时前
LangGraph自适应工作流路由机制:从关键词匹配到智能决策的完整实现
人工智能·fastapi·langgraph
QYR-分析20 小时前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能
AI医影跨模态组学21 小时前
J Clin Oncol(IF=43.4)美国Cedars-Sinai医学中心等团队:基于计算组织学人工智能的晚期胰腺癌化疗选择预测性生物标志物的开发与验证
人工智能·机器学习·论文·医学·医学影像·影像组学
冬奇Lab21 小时前
RAG 系列(十六):Graph RAG——用知识图谱解决多跳关系问题
人工智能·llm