显式 + 隐式特征交叉融合模型

Wide&Deep

wide部分是一个广义的线性模型。y是预测值,x=x1,x2,....,xd是特征向量,w=w1,w2,.....,wd为模型参数,b为偏差。特征集包括原始输入特征和转换后的特征。 Wide部分的作用是让模型具有较强的"记忆能力"。

DCN模型

DCN = 显式交叉(Cross)+ 隐式非线性(Deep)

(1)DCN分成4部分。最底下是"Embedding and stacking layer",中间部分是"Cross network"和"Deep network",最上面是"Combination output layer"。

(2)DCN模型的显著优缺点是:

  • 优点:提供了显式的高阶交叉特征 (Cross Network);
  • 优点:使用了残差的方式保证交叉特征的有效学习;
  • 优点:特征交叉通过模型自动学习来实现,免去了人工特征工程
  • 缺点1: 隐式特征交叉,解释性不足。
  • 缺点2: 低效率的特征交叉学习,并不是所有的特征组合都是有效的。

(3)残差连接的具体公式:CrossNet

从上述公式中:是输入,可以看作常数,可以看作是函数F,那么我们换一种写法

上面的写法是不是比较熟悉,他就类似于残差连接的公式。

(4)DCN模型结构如下图所示,主要的模块为:

  • Embedding and Stacking Layer:输入特征的处理,包括embedding处理和concat操作;
  • Cross Network:特征交叉网络,对特征进行显式的有限阶的高阶交叉;
  • Deep Network:DNN层网络,对特征进行隐式的高阶交叉;
  • Combination Layer:结合特征交叉层和DNN层的隐层输出,并输入到预测层。

辅助学习参考:https://zhuanlan.zhihu.com/p/27296033305

DCN-V2模型

DCN-V2模型结构有串行(Stacked)与并行(Parallel/MoE)两种,实际落地时,并行结构(MoE 版)在工业界更为常见,尤其适合大规模推荐与广告排序场景。

(1) DCN-V2 真正的核心改进

原版 DCN 的 Cross Net 有个致命问题:表达能力太弱,交叉方式太受限。

原版 DCN 每层参数是 向量 w

​这本质是低秩、线性、受限的交叉

DCN-V2 只改了一件关键事:

把向量 w 换成了 矩阵 W , (或矩阵乘法形式)

带来三个真正的提升:

1.交叉不再是简单线性加权,变成更灵活的双线性交互

2.特征之间的交互权重不再共享,表达能力大幅提升

3.仍然保持显式高阶交叉,没有变成黑盒 MLP

(2)对参数矩阵W进行低秩分解

(3)使用MOE结构

当使用矩阵分解的思想降低其参数量后,激发了作者使用MOE进一步增强特征提取能力。MOE通常由两个部分组成:Expert(专家);Gate(门控网络)。DCN-V2利用多个专家分别在不同子空间中学习特征交叉,并使用依赖于输入x的门控机制 自适应 地组合学习到交叉特性。

Expert(专家)部分:在每一层的特征交叉中,由k个转化,每个专家都会经过一个小网络,即组成,其各自的维度可见上图的维度变化,在专家网络计算时,作者没有立即从维度 投影回 d( << d),而是进一步在投影空间中应用非线性变换 来 优化表示,非线性变换即为非线性激活函数,常使用tanh(),所以在计算之间都有一个tanh() 函数。

参考:https://zhuanlan.zhihu.com/p/1922700531165558733

Gate(门控网络)部分:不用把门控网络想的非常高大上,实际就是用来生成每个专家的权重,常使用的Linear 线性网络。

相关推荐
tigershang11 分钟前
卡尔曼滤波:不确定世界中的最优估计
人工智能·算法·机器学习
深度之眼20 分钟前
2026年因果推断与多目标优化结合的前沿思路
机器学习·多目标优化·因果推断
人工智能培训32 分钟前
七大数字技术协同赋能 开启全域智能数字化新时代
人工智能·深度学习·机器学习·生成对抗网络·知识图谱
郑洁文1 小时前
基于机器学习的成都市租房数据的分析与应用
人工智能·机器学习·成都市租房数据·成都市租房数据分析
哥布林学者1 小时前
深度学习进阶(二十九)现代 LLM 的核心架构设计其四:GQA
机器学习·ai
林间码客1 小时前
《人工智能概论》实验4 知识点复习提纲
人工智能·深度学习·机器学习
人工智能培训2 小时前
从GPT到开源大模型
人工智能·gpt·深度学习·机器学习·容器·知识图谱
红宝村村长2 小时前
OPD Reverse KL
机器学习
keykey6.2 小时前
LSTM 文本情感分析:从词嵌入到分类实战
开发语言·人工智能·深度学习·机器学习
数智工坊3 小时前
周志华《Machine Learning》学习笔记--第十三章--半监督学习
笔记·学习·机器学习