【Python机器学习】SVM——预处理数据

为了解决特征特征数量级差异过大,导致的模型过拟合问题,有一种方法就是对每个特征进行缩放,使其大致处于同一范围。核SVM常用的缩放方法是将所有的特征缩放到0和1之间。

"人工"处理方法:

python 复制代码
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
cancer=load_breast_cancer()
X_train,X_test,y_train,y_test=train_test_split(cancer.data,cancer.target,random_state=0)

#计算训练集中每个特征的最小值
min_on_train=X_train.min(axis=0)
#计算训练集中每个特征的范围(最小值-最大值)
range_on_train=(X_train-min_on_train).max(axis=0)
#减去最小值,然后除以范围,这样最大值都是1,最小值都是0
X_train_scales=(X_train-min_on_train)/range_on_train

print('每个特征的最小值:{}'.format(X_train_scales.min(axis=0)))
print('每个特征的最大值:{}'.format(X_train_scales.max(axis=0)))

X_test_scales=(X_test-min_on_train)/range_on_train

svc=SVC(C=1,gamma=1)
svc.fit(X_train_scales,y_train)
print('训练集精度:{:.3f}'.format(svc.score(X_train_scales,y_train)))
print('测试集精度:{:.3f}'.format(svc.score(X_test_scales,y_test)))

可以看到,最终的结果上训练集和测试集的精度都非常好,但还没有接近100%的精度,可能存在欠拟合,后续可以通过调整C参数来继续优化。

相关推荐
DisonTangor几秒前
【腾讯拥抱开源】腾讯开源全新紧凑型视觉语言模型——企鹅VL
人工智能·计算机视觉·自然语言处理·视觉检测
北京耐用通信1 分钟前
耐达讯自动化CC-Link IE转Profinet网关:破解协议壁垒,赋能电机智控升级
人工智能·科技·物联网·网络协议·自动化·信息与通信
鲨鱼辣椒 �2 分钟前
openclaw在windows和mac上的安装以及AI技术中的几个关键概念,包括大模型、MCP协议、Skills、智能体和OpenClaw。
人工智能
nn在炼金3 分钟前
大语言模型 Agent 技术详解
人工智能·语言模型·自然语言处理
知秋丶5 分钟前
LangGraph 实战:如何用“双图编排”将多模态 OCR-RAG 做到生产级落地
人工智能·langchain·ocr
技术小甜甜10 分钟前
[AI工程化] 一个适合封闭内网环境的AI实战配置建议:Qwen + Dify + 本地AI自动化
人工智能·ai·自动化·创业创新·工作流
普密斯科技10 分钟前
精准把控每一处细节——FPGA焊点高度精准检测实施方案
人工智能·深度学习·数码相机·计算机视觉·fpga开发·测量
只说证事10 分钟前
中专三年,每个阶段应该考什么计算机证书?
机器学习
QYR_1113 分钟前
细胞涂片机行业深度解析:自动化技术如何赋能临床诊断与癌症筛查?
大数据·人工智能
EasyDSS14 分钟前
生态构建:视频直播点播视频会议EasyDSS如何打造一站式音视频服务生态
人工智能·m3u8·点播技术·智能转码