Python机器学习库Scikit-learn使用

先说说数据预处理这块。以前总觉得特征工程是个纯体力活，直到被sklearn的预处理模块拯救。它的StandardScaler零均值标准化用起来就两行代码，比手写循环计算标准差和均值方便太多了。更实用的是OneHotEncoder，处理那些像城市名称、产品类别之类的离散特征时，直接把字符串转换成0/1矩阵，再也不用担心模型吃不下非数值数据了。

接下来聊聊数据集划分。train_test_split这个方法我几乎每个项目都在用，特别是那个stratify参数，能保证训练集和测试集里各类别样本比例与原始数据集一致，避免随机划分导致的数据偏差。记得有次做二分类问题，正样本本来就少，要是没这个分层抽样，模型效果估计要跌掉十个点。

说到建模，sklearn的统一API设计真是深得我心。不管是线性回归、随机森林还是SVM，清一色的fit和predict方法，不同模型间切换几乎零成本。这里分享个小技巧：刚开始可以多试几个基础模型快速验证效果。比如用RandomForestClassifier跑个基线，再慢慢尝试更复杂的模型。这样既能快速验证特征有效性，又不会一开始就陷入调参黑洞。

交叉验证这块，cross_val_score绝对是神器。我一般喜欢用5折交叉验证，比单次划分训练测试集稳定多了。特别是当数据量不大时，这个函数能充分利用有限数据评估模型性能，避免因为单次数据划分的偶然性导致误判。

特征选择也是sklearn的强项。SelectKBest配合卡方检验或互信息法，能快速筛选出与目标变量最相关的特征。在实际项目中，我通常会先用这个方法做初步筛选，再用递归特征消除(RFE)进行精细筛选。这样两步走下来，特征维度降了，模型训练速度上去了，有时候准确率还能提一点。

模型评估方面，classification_report提供的精确率、召回率、F1值比单一准确率全面多了。特别是处理不平衡数据集时，光看准确率很容易被多数类"欺骗"。画混淆矩阵的话，直接用sklearn的plot_confusion_matrix，可视化效果清晰直观。

最后说说模型持久化。joblib.dump这个方法必须安利，训练好的模型保存成文件，部署时直接load就能用，避免了重复训练的开销。上次那个项目我把训练好的随机森林模型用joblib存下来，直接交给后端同事集成到生产环境，省去了不少对接的麻烦。

当然sklearn也不是万能的，处理超大规模数据还是得看Spark MLib，做深度学习肯定首选TensorFlow或PyTorch。但在常规的机器学习任务中，sklearn凭借其完整的工具链和简洁的API，依然是大多数数据科学家的首选工具库。特别是它的文档写得特别友好，每个函数都有示例代码，上手难度几乎为零。

说实话，用了sklearn之后我才真正体会到什么叫"站在巨人的肩膀上"。把底层算法实现交给专业库，我们就能更专注于业务逻辑和特征工程，这才是数据科学家应有的工作方式。毕竟我们的目标是解决问题，而不是重新发明轮子，对吧？