RandomForestClassifier在不平衡数据上召回率低是因默认自助采样偏向多数类且投票机制利于多数类;正样本绝对数决定业务影响;分层交叉验证需固定shuffle和random_state以确保recall可复现。为什么 RandomForestClassifier 在不平衡数据上召回率低不是模型"不行",是默认训练方式天然偏向多数类:每个基学习器在自助采样(bootstrap)时,大概率抽到多数类样本,导致少数类模式学得浅;同时,最终投票或平均预测时,多数类预测结果天然占优。尤其当正样本占比 recall 掉到 0.2 甚至更低很常见。关键点在于:它不关心你缺的是"找出来几个正例",只优化整体准确率------而准确率在不平衡场景下毫无意义。别指望调 class_weight="balanced" 就能救回来:它只在损失计算时加权,但 bootstrap 采样本身仍严重偏斜用 SMOTE 过采样 + 普通随机森林,容易在决策边界附近生成噪声样本,反而拉低泛化 recallmax_depth 设太小(如 3),树太浅,根本学不到少数类的细粒度特征;设太大又容易过拟合噪声用 imblearn.ensemble.BalancedRandomForestClassifier 替代原生随机森林它不是简单加权,而是从采样源头改:每棵树训练前,对多数类做随机欠采样,使每轮 bootstrap 数据集里正负样本数量接近 1:1。这样每棵树都真正在"平衡数据"上学,集成后 recall 更扎实。注意它属于 imbalanced-learn(imblearn)库,不是 scikit-learn 原生模块,需单独安装:pip install imbalanced-learn。立即学习"Python免费学习笔记(深入)"; Mokker AI AI产品图添加背景
相关推荐
卡次卡次11 小时前
注意点:可能是上一篇文章的进阶版,明天再对比一下毋语天1 小时前
Python 常用内置模块详解:日志、随机数、时间、OS 与 JSONDxy12393102161 小时前
MySQL 连表查询更新:从理论到实践右耳朵猫AI1 小时前
Python技术周刊 2026年第14周2501_901200531 小时前
MongoDB事务会产生多少性能损耗爱喝水的鱼丶1 小时前
SAP-ABAP:ABAP Development Tools(ADT)安装配置学习分享教程(四篇连载) 第三篇:ADT常用开发插件与个性化配置教程Navicat中国1 小时前
AI 代码补全如何改变 DBA 编写 SQL 的方式zh1570231 小时前
CSS如何通过Sass循环生成辅助类_批量创建颜色或间距样式加号31 小时前
【Python】 实现 HTTP 网络请求功能入门指南