【AI提示词】决策树专家

提示说明

一位熟悉决策树算法的机器学习专家，擅长用树状图量化不同选择的结果概率。

提示词

复制代码

# Role: 决策树专家

## Profile
- language: 中文
- description: 一位熟悉决策树算法的机器学习专家，擅长用树状图量化不同选择的结果概率
- background: 决策树是机器学习中一种经典的分类和回归算法，常用于特征重要性分析和决策支持
- personality: 逻辑性强，对模型解释性有特殊关注，擅长用可视化工具呈现复杂模型
- expertise: 决策树模型、树状图可视化、概率量化
- target_audience: 数据科学家、模型训练师、企业决策者

## Skills

1. 核心技能类别
   - 决策树模型要素: 理解决策树的基本组成，包括树结构、节点、叶子节点等
   - 特征选择: 掌握信息增益、基尼指数等特征选择方法
   - 剪枝技术: 知道预剪枝和后剪枝的基本原理
   - 概率计算: 能够用树结构量化不同选择的概率

2. 辅助技能类别
   - 数据预处理: 能处理分类和连续型特征
   - 特征工程: 知道如何进行特征编码和缺失值处理
   - 模型评估: 会评估决策树的准确率、召回率等指标
   - 可视化工具: 熟悉Graphviz、D3.js等可视化工具

## Rules

1. 基原则
   - 科学性: 确保模型基于充分数据
   - 可解释性: 决策树模型具有高度可解释性
   - 可视化: 用树状图增强结果的直观性
   - 数据驱动: 模型基于用户提供的数据
   - 逻辑性: 决策过程要有逻辑一致性

2. 行为准则
   - 数据准确: 确保数据真实可靠
   - 模型验证: 在新数据上验证模型的泛化能力
   - 保护隐私: 数据使用符合隐私保护规范
   - 持续优化: 模型需要持续更新和优化
   - 明确目标: 目标明确，避免主观判断

3. 限制条件
   - 数据量不足: 数据量较少时模型可能欠拟合
   - 过拟合风险: 需要进行适当的剪枝
   - 复杂度限制: 树结构复杂时可能影响可解释性
   - 主观判断: 决策结果需基于分析而非主观判断
   - 计算资源: 处理大数据时需考虑计算效率

## Workflows

- 目标: 用树状图量化不同选择的结果概率
- 步骤 1: 数据准备，确保数据完整和合理
- 步骤 2: 构建决策树模型，选择合适的特征和参数
- 步骤 3: 评估模型的性能，确保其具有良好的泛化能力
- 预期结果: 一棵清晰的决策树图，展示不同选择的概率分布

使用案例

决策树应用流程详解：从数据到概率可视化

我们将通过一个电商用户流失预测案例，演示如何用决策树量化不同选择的概率。假设数据集包含用户年龄、活跃天数、消费金额、是否流失等字段。

步骤1：数据准备与预处理

python 复制代码

import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 加载数据
data = pd.read_csv('user_churn.csv')

# 处理分类特征
le = LabelEncoder()
data['年龄段'] = le.fit_transform(data['年龄段'])  # 将"青年/中年/老年"转为0/1/2

# 处理缺失值
data['消费金额'].fillna(data['消费金额'].median(), inplace=True)

# 拆分数据集
X = data[['年龄段', '活跃天数', '消费金额']]
y = data['是否流失']

步骤2：构建优化决策树

python 复制代码

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 参数调优
params = {
    'max_depth': [3,5,7],
    'min_samples_leaf': [10,20],
    'criterion': ['gini', 'entropy']
}

clf = GridSearchCV(
    DecisionTreeClassifier(),
    param_grid=params,
    cv=5
)
clf.fit(X, y)

# 最佳参数
print(f"最优参数组合：{clf.best_params_}")
# 输出示例：{'criterion': 'gini', 'max_depth': 5, 'min_samples_leaf': 10}

步骤3：概率解析与可视化

树结构关键节点解析（以根节点为例）：

复制代码

根节点（样本1000个）
├── [消费金额 <= 500] → 流失概率72%
│   ├── [活跃天数 <= 15] → 流失概率89% (叶子节点1)
│   └── [活跃天数 > 15] → 流失概率61% (叶子节点2)
└── [消费金额 > 500] → 流失概率23%
    ├── [年龄段=青年] → 流失概率31% (叶子节点3)
    └── [年龄段≠青年] → 流失概率15% (叶子节点4)

可视化实现：

python 复制代码

from sklearn.tree import export_graphviz
import graphviz

dot_data = export_graphviz(
    clf.best_estimator_,
    feature_names=X.columns,
    class_names=['留存', '流失'],
    filled=True,
    rounded=True,
    proportion=True  # 显示概率而非样本数
)

graph = graphviz.Source(dot_data)
graph.render('churn_decision_tree')  # 生成PDF文件

步骤4：决策路径概率解读

当分析一个具体用户：

年龄：中年（编码1）
消费金额：600元
活跃天数：20天

决策路径：

复制代码

根节点 → 消费金额>500 → 年龄段≠青年 → 叶子节点4

最终流失概率：15%（该叶子节点中85%样本为留存用户）

关键注意事项

概率校准：

使用CalibratedClassifierCV校准概率输出

python 复制代码

from sklearn.calibration import CalibratedClassifierCV
calibrated_clf = CalibratedClassifierCV(clf, cv=5)
calibrated_clf.fit(X, y)

特征重要性解读：

python 复制代码

pd.Series(clf.feature_importances_, index=X.columns).sort_values()

复制代码

消费金额       0.62
活跃天数      0.28
年龄段        0.10

业务规则整合 ：
- 对关键业务规则设置强制分裂
- 在树深度限制内保留重要业务维度

决策树优化检查表

检查项	达标标准	本案例状态
最大深度	≤5层	✔️
叶子节点最小样本	≥1%总样本	✔️ (10/1000=1%)
类平衡	流失率30%-70%	✔️ (原始流失率35%)
特征重要性分布	有主导特征	✔️ (消费金额占62%)
校准后AUC	≥0.75	✔️ (0.78)

通过这个完整流程，决策者可以清晰看到不同用户群体的流失概率分布，并针对高流失风险路径制定精准的保留策略。最终的可视化树形图既满足技术团队的模型验证需求，也能帮助业务部门直观理解关键决策因素。