【2024_CUMCM】机器学习导论、不平衡分类模型（重采样）、交叉验证（附代码）

from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 创建模型
model = LogisticRegression()

# 进行5折交叉验证
scores = cross_val_score(model, X, y, cv=5)

# 输出每次交叉验证的得分
print("每次交叉验证的得分：", scores)

# 计算平均得分
average_score = scores.mean()
print("平均得分：", average_score)

留一交叉验证（Leave-One-Out Cross Validation, LOO-CV）

是K折交叉验证的一个特例，每次使用一个样本作为验证集，其他样本作为训练集，++适用于小数据集.++

分层K折交叉验证（Stratified K-Fold Cross Validation）

分层是重新将数据排列组合，使得每一折都能比较好地代表整体。适用于分类问题，确保每个子集中各类别的比例与原始数据集中相同.

时间序列交叉验证（Time Series Split）

适用于时间序列数据，确保训练集只包含时间序列之前的数据，验证集包含之后的数据.

代码

以下附上实战代码，旨在了解模型预测过程

python 复制代码

# # 第四章 逻辑回归模型 - 股票客户流失预警模型
# # 案例实战 - 股票客户流失预警模型
# 1.读取数据
import pandas as pd
import sklearn.model_selection as ms
import sklearn.naive_bayes as nb

df = pd.read_excel('股票客户流失.xlsx')
df.head()

# 2.划分特征变量和目标变量
X = df.drop(columns='是否流失') 
y = df['是否流失']   

# 3.划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42) # 设置random_state使得每次划分的数据一样


# 模型一 逻辑回归
# 网格调参
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
# 创建逻辑回归模型
# 定义要搜索的参数网格
param_grid = {
    'C': np.logspace(-4, 4, 20),  # 正则化强度参数C
    'penalty': ['l1', 'l2'],       # 惩罚类型
    'solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'],  # 解算器
    'max_iter': [100, 500, 1000]
}


# 创建逻辑回归模型
lr = LogisticRegression(max_iter=1000, random_state=42)

# 创建网格搜索对象
grid_search = GridSearchCV(estimator=lr, param_grid=param_grid, cv=10, n_jobs=-1, scoring='accuracy')

# 拟合网格搜索对象
grid_search.fit(X_train, y_train)

# 输出最佳参数组合
print("最佳参数组合：", grid_search.best_params_)

# 使用最佳参数重新训练模型
best_lr = grid_search.best_estimator_

# 在测试集上评估模型性能（可选）
y_pred = best_lr.predict(X)
accuracy = accuracy_score(y, y_pred)
precision = precision_score(y, y_pred, average='macro')
recall = recall_score(y, y_pred, average='macro')
f1 = f1_score(y, y_pred, average='macro')

print("准确率：", accuracy)
print("精确率：", precision)
print("召回率：", recall)
print("F1分数：", f1)


# # 模型二 朴素贝叶斯
# model = nb.GaussianNB()
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('朴素贝叶斯',score)

# # 模型三 决策树
# from sklearn.tree import DecisionTreeClassifier
# model = DecisionTreeClassifier()
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('决策树',score)

# # 模型四 随机森林
# from sklearn.ensemble import RandomForestClassifier
# model = RandomForestClassifier()
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('随机森林',score)

# # 模型五 KNN
# from sklearn.neighbors import KNeighborsClassifier
# model = KNeighborsClassifier()
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('KNN',score)

# # 模型六 SVM
# from sklearn.svm import SVC
# model = SVC()
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('SVM',score)

# # 模型七 XGBoost
# from xgboost import XGBClassifier
# model = XGBClassifier()
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('XGBoost',score)

# # 模型八 LightGBM
# from lightgbm import LGBMClassifier
# model = LGBMClassifier()
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('LightGBM',score)

# # 模型九 CatBoost
# from catboost import CatBoostClassifier
# model = CatBoostClassifier()
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('CatBoost',score)

# # 模型十 集成学习
# from sklearn.ensemble import VotingClassifier
# model = VotingClassifier(estimators=[('lr', model), ('nb', model), ('dt', model), ('rf', model), ('knn', model), ('svm', model), ('xgb', model), ('lgb', model), ('cb', model)], voting='hard')
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('集成学习',score)

# # 模型十一 模型融合
# from sklearn.ensemble import StackingClassifier
# model = StackingClassifier(estimators=[('lr', model), ('nb', model), ('dt', model), ('rf', model), ('knn', model), ('svm', model), ('xgb', model), ('lgb', model), ('cb', model)], final_estimator=model)
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)
# score = accuracy_score(y_pred, y_test)
# print('模型融合',score)