scikit-learn 包

文章目录

  • [scikit-learn 包](#scikit-learn 包)
    • 核心功能模块
    • 案例
    • 其他用法
      • **常用功能详解**
        • [**(1) 分类任务示例(SVM)**](#(1) 分类任务示例(SVM))
        • [**(2) 回归任务示例(线性回归)**](#(2) 回归任务示例(线性回归))
        • [**(3) 聚类任务示例(K-Means)**](#(3) 聚类任务示例(K-Means))
        • [**(4) 特征工程(PCA降维)**](#(4) 特征工程(PCA降维))
      • **高级技巧**
        • [**(1) 交叉验证与超参数调优**](#(1) 交叉验证与超参数调优)
        • [**(2) 流水线(Pipeline)**](#(2) 流水线(Pipeline))
        • [**(3) 自定义评估指标**](#(3) 自定义评估指标)
    • 方法介绍

scikit-learn 包

scikit-learn (sklearn) 是 Python 中最流行的机器学习库之一,提供了简单高效的工具集用于数据挖掘和数据分析。在反洗钱项目中,它主要用于构建风险识别模型和可疑交易检测系统。以下是其核心特点和应用:

核心功能模块

  1. 数据预处理(reprocessing)
    • 特征缩放( StandardScaler 、 MinMaxScaler )
    • 缺失值处理( SimpleImputer )
    • 类别变量编码( OneHotEncoder 、 LabelEncoder )
    • 在反洗钱场景中用于标准化交易金额、客户特征等数据
  2. 监督学习算法
    • 分类算法:逻辑回归、随机森林、SVM等,用于识别可疑交易
    • 回归算法:预测交易风险评分
    • 聚类算法:发现异常交易模式
  3. 模型评估与优化
    • 交叉验证( cross_val_score )
    • 网格搜索( GridSearchCV )调参
    • 混淆矩阵、ROC曲线等评估指标

优势

  • 易于使用 :统一的API接口,适合快速开发

  • 高效集成 :可与NumPy、Pandas数据处理无缝衔接

  • 丰富文档 :完善的教程和案例,降低反洗钱模型开发门槛

  • 社区活跃 :持续更新维护,支持最新算法
    注意事项

  • 需配合 pandas 进行数据清洗

  • 大规模交易数据可能需要结合 scipy 优化

  • 模型解释性需额外使用 SHAP 或 LIME 工具增强,满足监管要求

案例

以反洗钱业务为背景,使用 scikit-learn 开发风险识别模型。

python 复制代码
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target  # 特征矩阵 (n_samples, n_features) 和标签

# 数据预处理
# 标准化特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)  # 将输入特征矩阵 X 转换为均值为0、标准差为1的标准化数据
'''
    标准化特征:
    标准化特征是指将特征矩阵中的每个特征进行标准化处理,使它们的均值为0、标准差为1。
    标准化特征的目的是消除特征之间的量纲差异,使不同特征对模型的影响相同。
    标准化特征的计算方法是:将特征值减去均值,再除以标准差。
    标准化特征的计算过程如下:
    1. 计算特征的均值:mean = sum(x) / n
    2. 计算特征的标准差:std = sqrt(sum((x - mean)^2) / n)
    3. 标准化特征:x_scaled = (x - mean) / std

    两步操作合一 : fit_transform 等价于先调用 scaler.fit(X) 再调用 scaler.transform(X)
        - fit(X) :计算训练数据的均值和标准差等统计参数
        - transform(X) :使用这些参数将数据进行标准化转换
'''

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled,
                                                    y,
                                                    test_size=0.2,
                                                    random_state=42)
# test_size=0.2  20% 为测试数据 80% 为训练数据
# random_state=42 随机种子

# 训练随机森林模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)  # 训练



y_pred = model.predict(X_test)
print("准确率:", accuracy_score(y_test, y_pred))
print("详细报告:\n", classification_report(y_test, y_pred))

Demo 进阶

python 复制代码
# -*- coding: utf-8 -*-
"""
反洗钱交易检测Demo
功能:使用随机森林模型识别可疑交易
数据特征:交易金额、频率、地区风险等级等
"""
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score, classification_report

# 1. 准备反洗钱样本数据(实际项目中从数据库读取)
def prepare_aml_data():
    """生成模拟反洗钱交易数据"""
    # 正常交易(90%)和可疑交易(10%)
    np.random.seed(42)
    n_samples = 10000

    # 特征:交易金额、频率、地区风险等级、账户年龄(天)
    X = pd.DataFrame({
        'amount': np.random.normal(5000, 3000, n_samples),
        'transaction_count': np.random.randint(1, 20, n_samples),
        'region_risk': np.random.randint(1, 5, n_samples),
        'account_age': np.random.randint(30, 365, n_samples)
    })

    # 标签:1=可疑交易,0=正常交易
    y = np.where(
        (X['amount'] > 10000) & (X['region_risk'] > 3) |
        (X['transaction_count'] > 15) & (X['account_age'] < 90),
        1, 0
    )
    return X, y

# 2. 数据预处理与模型训练
def train_aml_model():
    """训练反洗钱交易检测模型"""
    # 获取数据
    X, y = prepare_aml_data()
    # 拆分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X,
                                                        y,
                                                        test_size=0.3,
                                                        random_state=42,
                                                        stratify=y)
    # 使用 stratify(保持类别分布一致)
    '''
    当设置 stratify=y 时,函数会:
        1. 分析 y 中各类别的比例
        2. 在拆分过程中,按照相同比例从每个类别中抽取样本到训练集和测试集
        3. 最终确保训练集和测试集的类别分布与原始数据集高度一致
    反洗钱项目中的重要性
        1. 解决数据不平衡问题 :反洗钱数据通常存在严重的类别不平衡(正常交易占99%以上,可疑交易不足1%)
        2. 确保模型泛化能力 :如果不使用 stratify ,随机拆分可能导致测试集中几乎没有可疑交易样本,无法准确评估模型性能
        3. 符合监管要求 :保证模型在稀有但关键的可疑交易类别上有足够的学习样本,避免模型对这类交易的漏检
    '''
    # 特征标准化(修复原代码中的拼写错误和语法问题)
    scaler = StandardScaler()  # 修正:scalar -> scaler
    # 对训练集进行拟合和转换
    X_train_scaled = scaler.fit_transform(X_train)  # 修正:添加括号和参数
    # 对测试集进行转换
    X_test_scaled = scaler.transform(X_test)
    '''
        两者区别
        1. fit_transform :用于训练数据,计算并应用标准化参数(均值和标准差),并返回标准化后的训练数据
        2. transform :用于测试数据,使用之前计算的标准化参数(均值和标准差),并返回标准化后的测试数据
        作用:
            1.避免数据泄露: 确保测试集的数据不会影响模型训练过程中的参数估计
            2.保持一致性 :训练集和测试集使用相同的转换标准,确保模型评估的公平性
            3.模拟真实场景 :在实际反洗钱应用中,模型部署后只能使用训练时确定的参数来处理新交易数据
            这种处理方式确保了模型评估的客观性,也是机器学习流程中的最佳实践。
    '''
    # 训练随机森林模型(反洗钱项目常用算法)
    model = RandomForestClassifier(
        n_estimators=100,  # 树的数量
        max_depth=8,  # 树深度,防止过拟合
        class_weight='balanced',  # 处理不平衡数据
        random_state=42)
    model.fit(X_train_scaled, y_train)

    # 模型评估
    y_pred_proba = model.predict_proba(X_test_scaled)[:, 1]
    y_pred = model.predict(X_test_scaled)

    print(f"模型AUC值: {roc_auc_score(y_test, y_pred_proba):.4f}")
    print("分类报告:\n", classification_report(y_test, y_pred))

    return model, scaler

# 3. 预测新交易风险
def predict_risk(model, scaler, new_transaction):
    """
    预测新交易的风险等级
    :param model: 训练好的模型
    :param scaler: 特征缩放器
    :param new_transaction: 新交易数据(DataFrame)
    :return: 风险概率和预测标签
    """
    transaction_scaled = scaler.transform(new_transaction)
    risk_prob = model.predict_proba(transaction_scaled)[0, 1]
    risk_label = 1 if risk_prob > 0.7 else 0  # 风险阈值设为0.7
    return risk_prob, risk_label

# 执行Demo
if __name__ == "__main__":
    # 训练模型
    aml_model, aml_scaler = train_aml_model()

    # 模拟新交易检测
    new_trans = pd.DataFrame({
        'amount': [15000, 3000],
        'transaction_count': [18, 5],
        'region_risk': [4, 2],
        'account_age': [60, 200]
    })

    for i, trans in new_trans.iterrows():
        prob, label = predict_risk(aml_model, aml_scaler, trans.to_frame().T)
        print(f"交易{i+1}: 风险概率={prob:.4f}, 风险标签={label} (1=可疑, 0=正常)")

模型保存

python 复制代码
import joblib

# 保存模型
joblib.dump(aml_model, 'aml_model.pkl')

# 保存特征缩放器
joblib.dump(aml_scaler, 'aml_scaler.pkl')
# 加载模型
aml_model = joblib.load('aml_model.pkl')

其他用法

常用功能详解

(1) 分类任务示例(SVM)
python 复制代码
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix

svm = SVC(kernel='rbf', C=1.0)
svm.fit(X_train, y_train)
print("SVM 准确率:", svm.score(X_test, y_test))
print("混淆矩阵:\n", confusion_matrix(y_test, svm.predict(X_test)))
(2) 回归任务示例(线性回归)
python 复制代码
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

X, y = [[1], [2], [3]], [1, 2, 3]  # 简单数据
model = LinearRegression()
model.fit(X, y)
print("斜率:", model.coef_, "截距:", model.intercept_)
print("MSE:", mean_squared_error(y, model.predict(X)))
(3) 聚类任务示例(K-Means)
python 复制代码
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X_scaled)
print("聚类标签:", kmeans.labels_)
(4) 特征工程(PCA降维)
python 复制代码
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
print("降维后方差比例:", pca.explained_variance_ratio_)

高级技巧

(1) 交叉验证与超参数调优
python 复制代码
from sklearn.model_selection import GridSearchCV

params = {'n_estimators': [50, 100, 200], 'max_depth': [None, 5, 10]}
grid = GridSearchCV(RandomForestClassifier(), params, cv=5)
grid.fit(X_train, y_train)
print("最佳参数:", grid.best_params_)
(2) 流水线(Pipeline)
python 复制代码
from sklearn.pipeline import Pipeline

pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier())
])
pipe.fit(X_train, y_train)
(3) 自定义评估指标
python 复制代码
from sklearn.metrics import make_scorer

def custom_metric(y_true, y_pred):
    return sum(y_true == y_pred) / len(y_true)

scorer = make_scorer(custom_metric)
print("自定义得分:", scorer(model, X_test, y_test))

方法介绍

python 复制代码
from sklearn.metrics import classification_report, roc_auc_score, precision_recall_curve, roc_curve, auc, recall_score, f1_score, log_loss, accuracy_score,precision_score

'''
1. classification_report
生成详细的分类评估报告,包含每个类别的精确率、召回率、F1分数和支持度。在反洗钱项目中,用于全面展示模型对正常交易(类别0)和可疑交易(类别1)的识别效果。
 2. roc_auc_score
计算ROC曲线下的面积(AUC值),范围在0-1之间。值越接近1,模型区分正常交易和可疑交易的能力越强。反洗钱场景中,AUC是评估模型整体性能的关键指标。
 3. precision_recall_curve
绘制精确率-召回率曲线,展示不同阈值下模型的精确率和召回率之间的权衡关系。在反洗钱项目中,帮助确定最优阈值,平衡漏报(低召回)和误报(低精确)风险。
 4. roc_curve
绘制受试者工作特征曲线(ROC曲线),展示不同阈值下模型的真阳性率(召回率)和假阳性率之间的关系。用于评估模型在不同阈值下的表现。
 5. auc
计算任意曲线下的面积,常与 roc_curve 或 precision_recall_curve 结合使用,量化曲线所代表的模型性能。
 6. recall_score
计算召回率(真阳性率):实际可疑交易中被正确识别的比例。反洗钱项目中,高召回率至关重要,可减少漏报风险,符合监管要求。
 7. f1_score
计算F1分数:精确率和召回率的调和平均数。综合评估模型性能,尤其适用于类别不平衡的反洗钱数据(正常交易远多于可疑交易)。
 8. log_loss
计算对数损失(交叉熵损失):衡量模型概率预测与实际标签的差异。值越小,模型预测越准确,适用于评估反洗钱模型的概率输出质量。
 9. accuracy_score
计算准确率:正确预测的样本数占总样本数的比例。但在反洗钱等类别不平衡场景中,准确率可能会误导(如99%正常交易的数据集,即使全部预测为正常也能达到99%准确率)。
 10. precision_score
计算精确率(阳性预测值):预测为可疑的交易中实际为可疑的比例。反洗钱项目中,高精确率可减少误报,降低人工审核成本。
'''
python 复制代码
from sklearn.linear_model import LogisticRegression
'''
LogisticRegression
1. 逻辑回归模型,用于二分类问题(正常交易与可疑交易)。与随机森林等模型不同,逻辑回归模型的解释性更强,可用于特征工程和模型解释。
2. 概率预测 :通过 predict_proba 方法输出交易为可疑的概率值
3. 特征重要性分析 :通过 coef_ 属性查看各特征对模型决策的影响程度
'''
相关推荐
rookiesx3 分钟前
安装本地python文件到site-packages
开发语言·前端·python
盼小辉丶24 分钟前
图机器学习(22)——图机器学习技术应用
人工智能·机器学习·图机器学习
2301_7644413333 分钟前
储粮温度预测新方案!FEBL模型用代码实现:LSTM+注意力+岭回归的完整流程
python·深度学习·机器学习
之之为知知34 分钟前
Chromadb 1.0.15 索引全解析:从原理到实战的向量检索优化指南
人工智能·深度学习·机器学习·大模型·索引·向量数据库·chromadb
叫我:松哥37 分钟前
优秀案例:基于python django的智能家居销售数据采集和分析系统设计与实现,使用混合推荐算法和LSTM算法情感分析
爬虫·python·算法·django·lstm·智能家居·推荐算法
yivifu1 小时前
使用OpenCV做个图片校正工具
python·opencv·计算机视觉
一个天蝎座 白勺 程序猿1 小时前
Python(32)Python内置函数全解析:30个核心函数的语法、案例与最佳实践
android·开发语言·python
hqxstudying1 小时前
J2EE模式---业务代表模式
java·前端·python·设计模式·java-ee·mvc
MediaTea1 小时前
Python 库手册:ssl 加密通信模块
开发语言·网络·python·网络协议·ssl
程序员小远2 小时前
Pytest+Selenium UI自动化测试实战实例
自动化测试·软件测试·python·selenium·测试工具·ui·pytest