为什么需要对数值类型的特征做归一化?

对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。最常用的方法有以下两种:

(1)线性函数归一化(Min-Max Scaling)

它对原始数据进行线性变换,使结果映射到【0,1】的范围,实现对数据的等比放缩。归一化公式如下

其中为原始数据,分别为数据最大值和最小值。

(2)零均值归一化(Z-Score Normalization)

它会将原始数据映射到均值为0,标准差为1的分布上。具体来说,假设原始特征的均值为、标准差为,那么归一化公式定义为

为什么需要对数值型特征做归一化呢?我们不妨借助随机梯度下降的实例来说明归一化的重要性。假设有两种数值型特征,的取值范围为【0,10】,的取值范围为【0,3】,于是可以构造一个目标函数符合图1.1(a)中的等值图。

在学习速率相同的情况下,的更新速度会大于,需要较多的迭代才能找到最优解。如果将归一化到相同的数值区间后,优化目标的等值图会变成图1.1(b)中的圆形。 的更新速度变得更为一致,容易更快地通过梯度下降找到最优解

当然,数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用,以C4.5为例,决策树在进行节点分裂时主要依据数据集关于特征的信息增益比,而信息增益比跟特征是否归一化是无关的,因为归一化并不会改变样本在特征上的信息增益。

相关推荐
汉克老师10 小时前
GESP6级C++考试语法知识(五、格雷码)
c++·算法·位运算·异或·gesp6级·gesp六级·格雷码
老王谈企服10 小时前
2026制造业供应链韧性提升,智能化将成为核心解决方案吗?基于实在Agent的端到端自动化实践
运维·人工智能·ai·自动化
Ulyanov10 小时前
《从质点到位姿:基于Python与PyVista的导弹制导控制全栈仿真》: 可视化革命——基于 PyVista 的 3D 战场构建与实时渲染
开发语言·python·算法·3d·系统仿真
,,?!,10 小时前
数据结构算法-排序算法
数据结构·算法·排序算法
Agent手记10 小时前
工厂货物智能入库全流程自动化:基于实在Agent与ISSUT技术的2026工业自动化实战指南
运维·人工智能·ai·自动化
五月底_10 小时前
Transformer
人工智能·深度学习
舞影天上10 小时前
我用 Docker 自托管了 AI 记忆系统,踩了 5 个坑全记录
人工智能
无心水10 小时前
【Hermes:安全、权限与生产环境】39、智能体也会犯错?Hermes 纠错、回滚与遗忘机制全指南 —— 让 AI 的错误像 Git 一样可逆可控
人工智能·git·安全·mcp协议·openclaw·hermes·honcho
小白编程锤炼11 小时前
深入解析:质量门禁
人工智能·算法·架构·vibe-coding
Ares-Wang11 小时前
AI》》 监督学习,无监督学习,半监督学习、强化学习 、深度学习 统计学的常用方法
人工智能·深度学习·学习