推荐算法学习笔记2.2:基于深度学习的推荐算法-基于特征交叉组合+逻辑回归思路的深度推荐算法-Deep Crossing模型

  • Deep Crossing模型(微软,搜索引擎,广告推荐)

    前置知识:推荐算法学习笔记1.3:传统推荐算法-逻辑回归算法推荐算法学习笔记1.4:传统推荐算法-自动特征的交叉解决方案:FM→FFM
    本文含残差块反向传播梯度推导 (最后附录)

    背景概述:用户搜索关键词 → 返回搜索结果以及相关广告。

    导出问题:如何提高广告的点击率?

    输入:混合类型(类别型,数值型)特征。

    输出:点击概率。

    细化问题:

    ①如何解决类别型特征进行one-hot或multi-hot编码后的稀疏问题?

    ②如何进行自动特征组合?

    ③如何将得到理想的输出?

    解决方案:

    ①对类别型特征进行嵌入表示(引入了Embedding层)。

    ②通过Stacking层将多个特征进行堆叠(concatenate),利用神经网络的非线性特征组合能力进行自动特征组合(Multiple Residual Units层, 残差结构)。

    ③通过Scoring层输出点击概率(分类层)。

    附录:

    附1:残差结构

    残差结构通过让模型拟合残差而不是映射从而减少网络过拟合的现象发生。即前向传播如下

    h ( i + 1 ) = h ( i ) + σ i + 1 ( W i + 1 h ( i ) + b i + 1 ) \mathbf{h}^{(i+1)} = \mathbf{h}^{(i)}+\sigma^{i+1}(\mathbf{W}^{i+1}\mathbf{h}^{(i)}+b^{i+1}) h(i+1)=h(i)+σi+1(Wi+1h(i)+bi+1)

    其中假设 h ( i ) = σ i ( W i h ( i − 1 ) + b i ) \mathbf{h}^{(i)} = \sigma^{i}(\mathbf{W}^{i}\mathbf{h}^{(i-1)}+b^{i}) h(i)=σi(Wih(i−1)+bi),则 W i \mathbf{W}^i Wi的反向传播如下

    ∂ L o s s ∂ W i = ∂ L o s s ∂ h i + 1 ( ∂ h i ∂ W i + ∂ σ i + 1 ∂ ( W i + 1 h ( i ) + b i + 1 ) ( W i + 1 ) T ∂ h i ∂ W i ) = ∂ L o s s ∂ h i + 1 ∂ h i ∂ W i + ∂ L o s s ∂ h i + 1 ∂ σ i + 1 ∂ ( W i + 1 h ( i ) + b i + 1 ) ( W i + 1 ) T ∂ h i ∂ W i \frac{\partial Loss}{\partial \mathbf{W}^i}= \frac{\partial Loss}{\partial \mathbf{h}^{i+1}} (\frac{\partial \mathbf{h}^{i}}{\partial \mathbf{W}^i}+\frac{\partial \sigma^{i+1}}{\partial (\mathbf{W}^{i+1}\mathbf{h}^{(i)}+b^{i+1})}(\mathbf{W}^{i+1})^T\frac{\partial \mathbf{h}^{i}}{\partial \mathbf{W}^i}) \\ =\frac{\partial Loss}{\partial \mathbf{h}^{i+1}} \frac{\partial \mathbf{h}^{i}}{\partial \mathbf{W}^i}+\frac{\partial Loss}{\partial \mathbf{h}^{i+1}} \frac{\partial \sigma^{i+1}}{\partial (\mathbf{W}^{i+1}\mathbf{h}^{(i)}+b^{i+1})}(\mathbf{W}^{i+1})^T\frac{\partial \mathbf{h}^{i}}{\partial \mathbf{W}^i} ∂Wi∂Loss=∂hi+1∂Loss(∂Wi∂hi+∂(Wi+1h(i)+bi+1)∂σi+1(Wi+1)T∂Wi∂hi)=∂hi+1∂Loss∂Wi∂hi+∂hi+1∂Loss∂(Wi+1h(i)+bi+1)∂σi+1(Wi+1)T∂Wi∂hi

    从反向传播过程可以看出 W i \mathbf{W}^i Wi的梯度中第一项不会引入后续的参数矩阵 W i + 1 \mathbf{W}^{i+1} Wi+1,所以在一定程度避免了梯度消失的产生。

相关推荐
云上艺旅15 小时前
K8S学习之基础七十四:部署在线书店bookinfo
学习·云原生·容器·kubernetes
你觉得20516 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
A旧城以西17 小时前
数据结构(JAVA)单向,双向链表
java·开发语言·数据结构·学习·链表·intellij-idea·idea
无所谓จุ๊บ17 小时前
VTK知识学习(50)- 交互与Widget(一)
学习·vtk
FAREWELL0007517 小时前
C#核心学习(七)面向对象--封装(6)C#中的拓展方法与运算符重载: 让代码更“聪明”的魔法
学习·c#·面向对象·运算符重载·oop·拓展方法
吴梓穆17 小时前
UE5学习笔记 FPS游戏制作38 继承标准UI
笔记·学习·ue5
Three~stone18 小时前
MySQL学习集--DDL
数据库·sql·学习
齐尹秦18 小时前
HTML 音频(Audio)学习笔记
学习
V---scwantop---信18 小时前
英文字体:大胆都市街头Y2Y涂鸦风格品牌海报专辑封面服装字体 Chrome TM – Graffiti Font
笔记·字体
瞌睡不来18 小时前
(学习总结32)Linux 基础 IO
linux·学习·io