【Python机器学习】SVM——预处理数据

为了解决特征特征数量级差异过大,导致的模型过拟合问题,有一种方法就是对每个特征进行缩放,使其大致处于同一范围。核SVM常用的缩放方法是将所有的特征缩放到0和1之间。

"人工"处理方法:

python 复制代码
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
cancer=load_breast_cancer()
X_train,X_test,y_train,y_test=train_test_split(cancer.data,cancer.target,random_state=0)

#计算训练集中每个特征的最小值
min_on_train=X_train.min(axis=0)
#计算训练集中每个特征的范围(最小值-最大值)
range_on_train=(X_train-min_on_train).max(axis=0)
#减去最小值,然后除以范围,这样最大值都是1,最小值都是0
X_train_scales=(X_train-min_on_train)/range_on_train

print('每个特征的最小值:{}'.format(X_train_scales.min(axis=0)))
print('每个特征的最大值:{}'.format(X_train_scales.max(axis=0)))

X_test_scales=(X_test-min_on_train)/range_on_train

svc=SVC(C=1,gamma=1)
svc.fit(X_train_scales,y_train)
print('训练集精度:{:.3f}'.format(svc.score(X_train_scales,y_train)))
print('测试集精度:{:.3f}'.format(svc.score(X_test_scales,y_test)))

可以看到,最终的结果上训练集和测试集的精度都非常好,但还没有接近100%的精度,可能存在欠拟合,后续可以通过调整C参数来继续优化。

相关推荐
Baihai_IDP3 分钟前
Andrej Karpathy:2025 年 LLM 领域的六项范式转变
人工智能·面试·llm
踩着两条虫3 分钟前
VTJ.PRO「AI + 低代码」应用开发平台的后端模块系统
前端·人工智能·低代码
Generalzy3 分钟前
深度觉醒 — Deep Agents(三座大山 — Agent 的核心挑战)
python
人工智能AI技术3 分钟前
开源模型落地指南:DeepSeek微调实战,在垂直场景打造差异化竞争力
人工智能
一个会的不多的人4 分钟前
人工智能基础篇:概念性名词浅谈(第二十二讲)
人工智能·制造·数字化转型
极新5 分钟前
新看点/818AI创始人冷煜:AI落地,决胜“最后100米” | 2025极新AIGC峰会演讲实录
大数据·人工智能
YukiMori236 分钟前
基于Paddle微调ERNIE的中文情感分析实战教程
深度学习·机器学习
环黄金线HHJX.8 分钟前
《QuantumTuan ⇆ QT:Qt》
人工智能·qt·算法·编辑器·量子计算
用户51914958484510 分钟前
Docker Buildx:构建容器镜像的瑞士军刀
人工智能·aigc
zl_vslam10 分钟前
SLAM中的非线性优-3D图优化之地平面约束(十五)
人工智能·算法·计算机视觉·3d