推荐算法发展历史

推荐算法的发展历史是一部从简单规则到复杂智能,从宏观群体推荐到微观个性化精准推荐的 演进史。它大致可以分为以下几个阶段:

推荐算法的发展历史是一部从简单规则到复杂智能,从宏观群体推荐到微观个性化精准推荐的演进史。它大致可以分为以下几个阶段:


第一阶段:远古时代 - 非个性化推荐 (1990s中期之前)

在这个阶段,所谓的"推荐"几乎没有任何个性化可言,更像是一个热门排行榜人工编辑推荐

  • 核心方法

    • 全局热门推荐:直接推荐给所有人最畅销、点击率最高的商品。例如,书店门口的"畅销书排行榜"。

    • 分类热门推荐:按类别推荐热门的商品。例如,"科幻类畅销书排行榜"。

    • 人工精选:由编辑、专家等人工挑选并推荐商品,常见于早期内容网站。

  • 特点:实现简单,但完全忽略了个体差异,用户体验单一。


第二阶段:萌芽与奠基 - 协同过滤的诞生 (1990s中期 - 2000s初)

这是个性化推荐算法的起点 ,标志性思想是协同过滤(Collaborative Filtering, CF) 的提出和应用。

  • 核心里程碑

    • 1992年:Xerox PARC的David Goldberg等人首次提出"协同过滤"概念,用于过滤电子邮件。

    • 1994年:MIT的GroupLens研究组将协同过滤应用于新闻过滤,提出了第一个自动化的协同过滤系统。

    • 1997年Amazon发表了关于其 item-to-item 协同过滤技术的论文,并将其成功应用于电商推荐,取得了巨大商业成功,证明了推荐系统的价值。

  • 主要方法

    • 基于用户的协同过滤(User-CF): "和你口味相似的人也喜欢XXX"。计算用户之间的相似度。

    • 基于物品的协同过滤(Item-CF): "喜欢这个物品的人也喜欢XXX"。计算物品之间的相似度(Amazon的主力算法)。

  • 特点 :实现了真正的个性化推荐,但深受冷启动问题 (新用户、新物品无法被推荐)和数据稀疏性问题(用户-物品矩阵非常稀疏,难以计算相似度)的困扰。


第三阶段:百花齐放 - 模型化与多元化 (2000s初 - 2010s初)

为了克服协同过滤的缺陷,研究者们引入了更多机器学习模型和数据处理技术。

  • 核心发展

    1. 模型化推荐

      • 矩阵分解(Matrix Factorization, MF) : 尤其是隐语义模型(LFM) ,如2006年Netflix Prize竞赛中大放异彩的SVD及其变种 。它将用户和物品映射到一个低维的潜在空间(latent space),从而挖掘用户和物品的深层隐藏特征,解决了数据稀疏性问题,精度远超传统CF。
    2. 内容过滤的融合

      • 为了解决物品冷启动问题,算法开始结合物品的内容信息(如文本、标签、属性)。例如,为一个新电影提取关键词(导演、演员、类型),推荐给喜欢这些关键词的用户。
    3. 逻辑回归(LR)成为排序核心

      • 在推荐系统的排序阶段,逻辑回归因其简单、高效且易于处理大规模特征的优势,成为预估点击率(CTR)的主流模型。特征工程变得至关重要。
  • 特点 :推荐系统从"算法"思维转向"算法+特征工程"思维,效果和稳定性大幅提升。


第四阶段:深度学习时代 - 智能感知与深度建模 (2010s中期 - 至今)

深度学习强大的表示学习和自动特征组合能力,彻底改变了推荐系统的面貌。

  • 核心发展

    1. 深度学习模型的引入

      • 2016年Google的Wide & Deep模型 :这是一个里程碑。它巧妙地将记忆能力(Wide部分 ,如LR,处理稀疏特征)和泛化能力(Deep部分,DNN,学习深层特征组合)结合,成为后续众多模型的基石。

      • 后续衍生模型DeepFMDCNxDeepFM等模型在Wide & Deep的基础上,更好地实现了自动的高阶特征交叉。

    2. 注意力机制与序列建模

      • 阿里巴巴的DIEN(2019) :使用RNN和注意力机制来模拟用户兴趣的动态演化,而不仅仅是静态的历史行为列表,更能捕捉用户的实时意图。

      • Transformer的应用:将NLP领域的Transformer模型用于用户行为序列建模,成为新的前沿方向。

    3. ** embedding技术的全面应用**:

      • 一切皆可Embedding。用户、物品、上下文信息都被映射为低维向量,进行语义化的相似度计算,这是实现深度匹配和语义召回的基础。
    4. 多任务学习(MTL)

      • 使用MMoE 等结构,让一个模型同时学习点击率(CTR)、转化率(CVR)、点赞、评论、停留时长等多个目标,平衡用户体验和平台商业目标。
  • 特点 :模型结构变得极其复杂,从"特征工程"走向"模型工程",对算力和数据的要求极高,但效果也达到了前所未有的高度。


第五阶段:当下与未来 - 更大的模型与更广阔的边界 (现在进行时)

  • 生成式推荐系统 : 利用大语言模型(LLM) 如GPT来理解用户查询的深层意图、生成个性化推荐解释、甚至直接创造和生成推荐内容(例如,生成一个个性化的购物清单或旅行计划)。

  • 强化学习(RL)的应用: 将推荐过程视为一个序列决策问题,通过与环境(用户)的交互来学习长期收益最优的推荐策略,而不仅仅是优化下一次点击。

  • 因果推断: 消除推荐系统中的偏差(如位置偏差、流行度偏差),更公平地评估物品质量,理解推荐的真正因果效应。

  • 多模态融合: 深度融合文本、图像、视频、音频等多种信息进行推荐(例如,通过分析短视频的画面和背景音乐来理解其内容并进行推荐)。

  • 隐私计算: 在数据不出域的前提下(如联邦学习)进行联合建模,成为数据安全法规日益严格下的重要方向。

总结:发展脉络

阶段 核心思想 代表性算法/技术 主要解决的问题
1. 非个性化 热度、人工 热门排行榜 基础推荐需求
2. 协同过滤 群体智慧 User-CF, Item-CF 实现个性化
3. 模型化 隐藏特征、特征工程 矩阵分解(SVD), 逻辑回归(LR) 数据稀疏性、精度提升
4. 深度学习 表示学习、自动特征交叉 Wide & Deep, DeepFM, DIEN 复杂模式识别、兴趣演化
5. 前沿探索 生成、推理、多模态 大语言模型(LLM), 强化学习(RL) 深度理解、长期价值、公平性

这个演进过程体现了从"知其然 "(CF)到"知其所以然 "(MF),再到"感知万物 "(深度学习),最终走向"推理与创造"(LLM+RL)的技术飞跃。

相关推荐
java1234_小锋4 小时前
Scikit-learn Python机器学习 - 字典特征提取-DictVectorizer
python·机器学习·scikit-learn
何妨重温wdys4 小时前
贪心算法解决固定长度区间覆盖问题:最少区间数计算
算法·贪心算法
健康有益科技5 小时前
慢病管理重构药店价值:数字化平台与物联网技术如何驱动行业升级?
大数据·人工智能·算法·软件工程·健康医疗·零售
野犬寒鸦6 小时前
力扣hot100:缺失的第一个正数(哈希思想)(41)
java·数据结构·后端·算法·leetcode·哈希算法
闪电麦坤957 小时前
数据结构:开放散列(Open Hashing)
数据结构·算法·哈希算法·散列表
SHIPKING3939 小时前
【机器学习&深度学习】向量模型与重排序模型:RAG 的双引擎解析
人工智能·深度学习·机器学习·向量模型·重排序模型
白菜帮张同学9 小时前
LP嵌入式软件/驱动开发笔试/面试总结
数据结构·驱动开发·经验分享·笔记·学习·算法·面试
熊大与iOS10 小时前
iOS 长截图的完美实现方案 - 附Demo源码
android·算法·ios
Elylicery10 小时前
【职业】算法与数据结构专题
数据结构·算法