Mean Normalization|均值归一化


这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!


一、均值归一化 简介

均值归一化(Mean Normalization) 是一种常见的数据预处理方法。它的核心思想是:将原始数据减去其均值,使得数据的中心值变为 0,从而消除不同数据之间的整体偏移。

在推荐系统中,用户的打分习惯差异很大:有些用户习惯给高分,有些用户则普遍打低分。如果不做处理,模型可能会把这种"用户个人偏好"当作电影本身的特征,导致推荐结果不准确。

通过均值归一化,我们能够 消除这种打分习惯的差异,让模型更关注用户和物品之间的相对关系,而不是绝对分数。

通俗理解:

就像有的人总是打高分(比如所有电影起步 4 星),有的人总是苛刻(很少打 5 星)。均值归一化就像给每个人"校正"了一下,让大家的打分基准都一致,这样推荐结果才更公平。


**二、**用户没有评分的情况

在实际的推荐系统中,经常会遇到一些用户完全没有打分的情况。例如图中的 Eve(用户5),她对任何电影都没有给过评分,导致她的整列数据都是空的(问号)。

这种情况会带来两个问题:

  1. 模型无法直接学习该用户的偏好

    协同过滤需要根据已有评分来推断用户兴趣,但 Eve 没有任何历史数据,模型无法提取特征向量 w(j)w(j)。

  2. 推荐结果偏差

    如果简单把缺失值当作 0,会导致错误的结果,因为"没评分"并不等于"不喜欢"。

在数学建模中,这种情况被称为 稀疏性问题(Sparsity Problem)。当用户和电影数量庞大时,评分矩阵里大部分位置都是空的(未观测)。如何处理这些缺失值,是推荐系统的关键挑战之一。

这时,就需要 均值归一化 来帮忙:即使用户没有打过分,也可以利用电影的整体平均分来估计缺失值,作为一个合理的起点。


三、均值归一化的处理方法

为了解决用户打分习惯不同、甚至没有评分的情况,我们引入 均值归一化。核心做法是:

  • 先计算每部电影的平均分 μi。

  • 再把每个评分减去该电影的平均分,得到归一化后的评分。

(1)计算电影均值

例如,电影《Love at last》在不同用户中被打了分,平均值可能是 μ1=2.5。

(2)数据矩阵归一化

原始评分矩阵:

经过均值归一化后,每个数值都会减去该电影的均值 μi:

这样一来,不同用户的打分基准就被消除了,矩阵数据以 0 为中心,更利于模型训练。

(3)直观理解
  • 如果某个用户的评分高于平均值,归一化结果为正数,表示"比大多数人更喜欢"。

  • 如果评分低于平均值,结果为负数,表示"比大多数人更不喜欢"。

  • 未评分的位置仍然保持为 "?",等待模型预测。

通俗理解:就像班级里有些老师打分严格,有些宽松。如果直接比较分数,会产生偏差。但如果把每个人的分数减去该科目的平均分,再来比较,就更公平。


**四、**预测时如何恢复原始评分

在训练阶段,我们使用的是均值归一化后的评分矩阵。但在预测阶段,我们最终希望得到的仍然是用户的 实际评分(例如 1 到 5 星),而不是偏移后的值。

(1)预测公式

对于用户 j 在电影 i 上的预测分数,模型先得到归一化预测值:

然后再加回电影的平均分 μi,得到最终预测结果:

(2)为什么要加回均值?
  • 因为训练时我们把每个评分减去了均值,预测值是相对于平均分的偏差。

  • 如果不加回去,预测结果就会失去参考意义,无法映射回原始的评分区间。

(3)示例

假设某电影的平均分 μi=2.5,

  • 模型预测 Alice 的归一化结果是 +1.0,则最终预测评分为 2.5+1.0=3.5。

  • 如果预测结果是 −1.0,则最终评分为 1.5。

(4)直观理解

这就像考试时所有分数都按平均分做了平移(归一化),最后公布成绩时必须再加回平均值,才能得到真正的分数。


五、总结与应用

均值归一化(Mean Normalization) 的核心作用是:

  • 通过减去均值,让数据分布以 0 为中心,减少不同用户打分习惯的差异;

  • 即使遇到用户没有打分的情况,也可以利用物品的平均分作为基准,提升模型的稳定性;

  • 在预测时,将归一化的预测结果加回均值,保证结果落在原始评分的合理区间。

优点

  • 提高推荐系统的公平性,让预测更贴近用户真实偏好;

  • 缓解评分矩阵的稀疏性问题,改善模型训练效果;

  • 保证不同用户的结果在同一尺度上可比较。

典型应用场景

  • 推荐系统:电影推荐、音乐推荐、电商商品推荐;

  • 机器学习数据预处理:对数值型特征做均值归一化,加速模型收敛;

  • 图像处理:对像素值减去均值,让图像输入更稳定。

简而言之,均值归一化是推荐系统和机器学习中的一个 小技巧、大作用,它帮助模型消除人为打分习惯带来的偏差,使得预测更精准、更公平。


这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!


相关推荐
兔兔爱学习兔兔爱学习几秒前
LangChain4j学习一:聊天和语言模型
人工智能·学习·语言模型
ITZHIHONH1 分钟前
DeerFlow多智能体项目分析-通过LangGraph实现工作流的源码解析
ai·开源·agent·ai编程
hadage2333 分钟前
--- 单源BFS权值为一算法 迷宫中离入口最近的出口 ---
算法·宽度优先
IT_陈寒4 分钟前
我用这5个JavaScript性能优化技巧,让页面加载速度提升了60%
前端·人工智能·后端
亚马逊云开发者5 分钟前
基于Strands Agent框架的考题生成及Agent 效果评估
人工智能
deephub6 分钟前
构建有记忆的 AI Agent:SQLite 存储 + 向量检索完整方案示例
数据库·人工智能·sqlite·大语言模型·向量检索·智能体
mailangduoduo7 分钟前
残差网络的介绍及ResNet-18的搭建(pytorch版)
人工智能·深度学习·残差网络·卷积神经网络·分类算法·1024程序员节
LDG_AGI14 分钟前
【推荐系统】深度学习训练框架(一):深入剖析Spark集群计算中Master与Pytorch分布式计算Master的区别
人工智能·深度学习·算法·机器学习·spark
LDG_AGI15 分钟前
【推荐系统】深度学习训练框架(二):深入剖析Spark Cluster模式下DDP网络配置解析
大数据·网络·人工智能·深度学习·算法·机器学习·spark
ai智能获客_狐狐18 分钟前
电商零售行业外呼优势
人工智能·算法·自然语言处理·语音识别·零售