【Python机器学习】预处理对监督学习的作用

还是用cancer数据集,观察使用MinMaxScaler对学习SVC的作用。

首先,在原始数据上拟合SVC:

python 复制代码
cancer=load_breast_cancer()
X_train,X_test,y_train,y_test=train_test_split(
    cancer.data,cancer.target,random_state=0
)
svm=SVC(C=100)
svm.fit(X_train,y_train)
print('test set accuracy:{:.2f}'.format(svm.score(X_test,y_test)))

下面先用MinMaxScaler对数据进行缩放,然后再拟合SVC:

python 复制代码
scaler=MinMaxScaler()
scaler.fit(X_train)
X_train_scaler=scaler.transform(X_train)
X_test_scaler=scaler.transform(X_test)

svm.fit(X_train_scaler,y_train)

print('Scaler test set accuracy:{:.2f}'.format(svm.score(X_test_scaler,y_test)))

可以发现,数据缩放的作用非常显著。虽然数据缩放不涉及任何复杂的数据,但良好的做法仍然是使用scikit-learn提供的缩放机制,而不是自己重新实现它们,因为即使在这些简单的计算中也容易犯错。

还可以通过改变使用的类将一种预处理算法替换成另一种,因为所有的预处理类都具有相同的接口,都包含fit和transform方法:

python 复制代码
scaler=StandardScaler()
scaler.fit(X_train)
X_train_scaler=scaler.transform(X_train)
X_test_scaler=scaler.transform(X_test)

svm.fit(X_train_scaler,y_train)

print('SVM test accuracy:{:.2f}'.format(svm.score(X_test_scaler,y_test)))
相关推荐
Ulyanov几秒前
大规模战场数据与推演:性能优化与多视图布局实战
开发语言·python·性能优化·tkinter·pyvista·gui开发
kingmax542120081 分钟前
工信部教育与考试中心AI证书归纳
人工智能·ai证书·以考促学
tjjucheng2 分钟前
小程序定制开发哪家口碑好
python
tjjucheng4 分钟前
小程序定制开发源头厂家
python
2501_941507945 分钟前
【房屋建筑目标检测】基于Decoupled-Solo模型的建筑检测方法实现与优化_r50_fpn_1x_coco
人工智能·目标检测·计算机视觉
玩转数据库管理工具FOR DBLENS9 分钟前
人工智能:演进脉络、核心原理与未来之路 审核中
数据库·人工智能·测试工具·数据库开发·数据库架构
小范馆11 分钟前
ESP8266-01S学习笔记
笔记·stm32·学习·esp8266-01s
海棠AI实验室12 分钟前
第 3 篇:服务编排与自启动——把 Mac 变成“稳定可运维”的家庭 AI 机房
运维·人工智能·macos
Niuguangshuo14 分钟前
Vision Transformer (ViT):当Transformer遇见图像,CV的范式革命
人工智能·深度学习·transformer
大模型任我行22 分钟前
亚马逊:对话Agent轨迹学习框架WISE-Flow
人工智能·语言模型·自然语言处理·论文笔记