机器学习入门 04逻辑回归part2——提高逻辑回归模型的召回率

书接上回，上一部分我们学习了逻辑回归基础，将信用卡数据集构建了逻辑回归模型，但是，我们构建的模型还有非常多的地方可以优化，这一篇就来介绍如何提高逻辑回归模型的准确率。

这是之前的银行信用卡数据集，下面是构建最基础的模型代码，接下来我们就需要在这之上进行优化。

复制代码

import pandas as pd
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
from pylab import mpl
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LogisticRegression

data = pd.read_csv("creditcard.csv")

scaler = StandardScaler()
data['Amount'] = scaler.fit_transform(data[['Amount']])
data = data.drop(['Time'], axis=1)

mpl.rcParams['font.sans-serif'] = ['Microsoft YaHei']
mpl.rcParams['axes.unicode_minus'] = False

labels_count = data['Class'].value_counts()
print("正负例样本数量：")
print(labels_count)

plt.title("正负例样本数")
plt.xlabel("类别")
plt.ylabel("频数")
ax = labels_count.plot(kind='bar')
for bar in ax.patches:
    count = int(bar.get_height())
    x = bar.get_x() + bar.get_width() / 2
    y = bar.get_height() + 500
    ax.text(x, y, str(count), ha='center', va='bottom', fontsize=10, fontweight='bold')
plt.tight_layout()
plt.show()

X_whole = data.drop('Class', axis=1)
y_whole = data['Class']

x_train_w, x_test_w, y_train_w, y_test_w = train_test_split(
    X_whole, y_whole, test_size=0.3, random_state=1000
)

lr = LogisticRegression(C=0.01, max_iter=1000)
lr.fit(x_train_w, y_train_w)

test_predicted = lr.predict(x_test_w)
train_predicted = lr.predict(x_train_w)

print("\n测试集准确率：", lr.score(x_test_w, y_test_w))
print("\n训练集分类报告：")
print(metrics.classification_report(y_train_w, train_predicted))
print("\n测试集分类报告：")
print(metrics.classification_report(y_test_w, test_predicted))

1.调整参数C

我们注意到了测试集准确率已经达到了99.9016%了，但是模型的召回率（recall）非常的低，训练集只有0.62，测试集只有0.54，那么我们模型第一步就可以调整模型的参数c，设置不同的参数进行训练，最后找到最合适的参数。

复制代码

scores = []
c_param_range = [0.01, 0.1, 1, 10, 100]

for i in c_param_range:
    lr = LogisticRegression(C=i, penalty='l2', solver='lbfgs', max_iter=1000)
    score = cross_val_score(lr, x_train_w, y_train_w, cv=8, scoring='recall')
    score_mean = sum(score) / len(score)
    scores.append(score_mean)
    print(f"C={i} 时，交叉验证召回率均值：{score_mean:.4f}")

best_c = c_param_range[scores.index(max(scores))]
print(f"\n最优C值为：{best_c}")