RandomForestClassifier在不平衡数据上召回率低是因默认自助采样偏向多数类且投票机制利于多数类;正样本绝对数决定业务影响;分层交叉验证需固定shuffle和random_state以确保recall可复现。为什么 RandomForestClassifier 在不平衡数据上召回率低不是模型"不行",是默认训练方式天然偏向多数类:每个基学习器在自助采样(bootstrap)时,大概率抽到多数类样本,导致少数类模式学得浅;同时,最终投票或平均预测时,多数类预测结果天然占优。尤其当正样本占比 recall 掉到 0.2 甚至更低很常见。关键点在于:它不关心你缺的是"找出来几个正例",只优化整体准确率------而准确率在不平衡场景下毫无意义。别指望调 class_weight="balanced" 就能救回来:它只在损失计算时加权,但 bootstrap 采样本身仍严重偏斜用 SMOTE 过采样 + 普通随机森林,容易在决策边界附近生成噪声样本,反而拉低泛化 recallmax_depth 设太小(如 3),树太浅,根本学不到少数类的细粒度特征;设太大又容易过拟合噪声用 imblearn.ensemble.BalancedRandomForestClassifier 替代原生随机森林它不是简单加权,而是从采样源头改:每棵树训练前,对多数类做随机欠采样,使每轮 bootstrap 数据集里正负样本数量接近 1:1。这样每棵树都真正在"平衡数据"上学,集成后 recall 更扎实。注意它属于 imbalanced-learn(imblearn)库,不是 scikit-learn 原生模块,需单独安装:pip install imbalanced-learn。立即学习"Python免费学习笔记(深入)"; Mokker AI AI产品图添加背景
相关推荐
兵慌码乱5 小时前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析金銀銅鐵6 小时前
[Python] 体验用欧几里得算法计算最大公约数的过程FreakStudio10 小时前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发用户03321266636711 小时前
使用 Python 从零创建 Word 文档Csvn16 小时前
Python 两大经典坑点 —— 可变默认参数 & 闭包延迟绑定曲幽17 小时前
别再用网页翻译看源码了!你的私人翻译神器LibreTranslate,部署避坑指南来了用户5569188175319 小时前
#从脚本到独立程序:Python + Playwright 批量抓取的完整踩坑记录倔强的石头_20 小时前
KingbaseES 新版MySQL 兼容版体验:旧版迁移 + 功能实测兵慌码乱1 天前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析luckdewei1 天前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化