决策树 DecisionTreeClassifier() 模型参数介绍

DecisionTreeClassifier() 是 scikit-learn 库中的决策树分类器,它有几个关键参数,用于控制模型的行为和性能。以下是其中一些重要的参数:

  1. criterion :用于划分节点的标准,可以是 'gini'(基尼指数)、'entropy'(信息增益),表示对数据纯度的衡量。默认值是 'gini'

  2. splitter :分割节点的方式,可以选择 'best'(选择最优特征划分)、'random'(随机选取)。 默认值是 'best'

  3. max_depth :树的最大深度,如果为 None 则不限制深度,直到所有叶子都是纯样本,即叶子节点中所有的样本点都属于同一个类别。或者每个叶子节点包含的样本数小于 min_samples_split。默认值是 None。

  4. min_samples_split :分裂一个内部节点所需的最小样本数。如果为整数,则min_samples_split就是最少样本数。如果为浮点数(0到1之间),则每次分裂最少样本数为 ceil(min_samples_split * n_samples)。默认值是 2。

  5. min_samples_leaf :每个叶节点至少需要的最小样本数。如果为整数,则min_samples_split 就是最少样本数。如果为浮点数(0到1之间),则每个叶子节点最少样本数为 ceil(min_samples_leaf * n_samples)。默认值是 1。

  6. max_features :若非 None,限制考虑的特征数。可以选择 'auto'(选择最优数量的特征),'all'(使用所有可用的特征)或一个整数值。如果为整数,每次分裂只考虑 max_features个特征;如果为浮点数(0到1之间),每次切分只考虑 int(max_features * n_features) 个特征。默认值是 None (和 'all' 一样,使用全部特征)

  7. random_state :用于随机化的种子,保证结果的可重复性。默认值是 None。

  8. class_weight :处理类别不平衡的选项,如 'default'、'balanced' 或自定义权重列表。默认值是 None (每个类别的权重都为1)

  9. presort :是否先对数据进行排序再进行划分,对于大样本集可能会提高效率。对于大数据集会减慢总体的训练过程。如果class_weight='balanced',则分类的权重与样本中每个类别出现的频率成反比:n_samples / (n_classes * np.bincount(y))。默认值是 False。

相关推荐
Trouvaille ~12 分钟前
零基础入门 LangChain 与 LangGraph(五):核心组件上篇——消息、提示词模板、少样本与输出解析
人工智能·算法·langchain·prompt·输入输出·ai应用·langgraph
MOON404☾30 分钟前
Chapter 002. 线性回归
算法·回归·线性回归
源码之家39 分钟前
计算机毕业设计:Python城市天气数据挖掘与预测系统 Flask框架 随机森林 K-Means 可视化 数据分析 大数据 机器学习 深度学习(建议收藏)✅
人工智能·爬虫·python·深度学习·机器学习·数据挖掘·课程设计
故事和你911 小时前
洛谷-数据结构-1-3-集合3
数据结构·c++·算法·leetcode·贪心算法·动态规划·图论
春栀怡铃声1 小时前
【C++修仙录02】筑基篇:类和对象(上)
开发语言·c++·算法
ulias2121 小时前
leetcode热题 - 3
c++·算法·leetcode·职场和发展
实心儿儿1 小时前
Linux —— 进程概念 - 程序地址空间
linux·运维·算法
菜鸟丁小真1 小时前
LeetCode hot100-287.寻找重复数和994.腐烂的橘子
数据结构·算法·leetcode·知识点总结
发发就是发2 小时前
USB系统架构概述:从一次诡异的枚举失败说起
驱动开发·单片机·嵌入式硬件·算法·fpga开发
少许极端2 小时前
算法奇妙屋(四十七)-ST表
算法·st表·rmq