目录
[1 介绍](#1 介绍)
[2 相关工作](#2 相关工作)
[3 背景介绍](#3 背景介绍)
[4 深度兴趣网络DIN](#4 深度兴趣网络DIN)
[4.1 特征表示](#4.1 特征表示)
[4.2 基础模型(嵌入层与多层感知机)](#4.2 基础模型(嵌入层与多层感知机))
[4.3 深度兴趣网络的结构](#4.3 深度兴趣网络的结构)
[5 训练技术](#5 训练技术)
[5.1 小批量敏感正则化](#5.1 小批量敏感正则化)
[5.2 数据自适应激活函数](#5.2 数据自适应激活函数)
[6 实验部分](#6 实验部分)
[6.1 数据集与实验配置](#6.1 数据集与实验配置)
[6.2 竞争对手模型](#6.2 竞争对手模型)
[6.3 评估指标](#6.3 评估指标)
[6.4 模型在Amazon数据集和MovieLens数据集上的对比结果](#6.4 模型在Amazon数据集和MovieLens数据集上的对比结果)
[6.5 正则化方法性能对比](#6.5 正则化方法性能对比)
[6.6 阿里巴巴数据集上的模型对比结果](#6.6 阿里巴巴数据集上的模型对比结果)
[6.7 阿里巴巴展示广告系统的在线A/B测试结果](#6.7 阿里巴巴展示广告系统的在线A/B测试结果)
[6.8 DIN的可视化分析](#6.8 DIN的可视化分析)
[7 结论](#7 结论)
摘要
点击率预测在在线广告等工业应用中是一项关键任务。近期提出的深度学习模型大多遵循"嵌入层+多层感知机"(Embedding&MLP)的范式:首先将大规模稀疏特征映射为低维嵌入向量,随后按特征组转换为定长向量并拼接,最终输入多层感知机以学习特征间的非线性关系。
此类方法将用户特征压缩为固定长度的表征向量,未考虑候选广告的差异。固定长度向量会限制模型从丰富用户行为中有效捕捉多样化兴趣的能力,成为Embedding&MLP方法的瓶颈。
本文提出深度兴趣网络(Deep Interest Network, DIN) ,通过设计局部激活单元自适应地学习用户历史行为与特定广告相关的兴趣表征。该表征向量随广告动态变化,显著提升了模型表达能力。此外,开发了两种技术:
- 小批量感知正则化
- 数据自适应激活函数
二者可助力训练参数规模达数亿的工业级深度网络。
在两个公开数据集及阿里巴巴超过20亿样本的真实生产数据集上的实验表明,所提方法优于现有技术。DIN已成功部署于阿里巴巴展示广告系统,支撑主要流量业务。
关键术语说明
- Embedding&MLP范式:先通过嵌入层处理稀疏特征,再经多层感知机建模非线性关系的基础架构。
- 局部激活单元:动态衡量用户历史行为与当前广告相关性的注意力机制组件。
- 小批量感知正则化:针对嵌入层参数的动态正则化方法,缓解海量稀疏特征下的过拟合问题。
1 介绍
成本每次点击(CPC)广告系统中的CTR预测
在按点击付费(CPC)广告系统中,广告的排序依据eCPM(每千次展示有效成本),即出价与点击率(CTR)的乘积,而CTR需通过系统预测。因此,CTR预测模型的性能直接影响最终收入,是广告系统的核心环节。CTR预测建模一直是学术界和工业界的研究热点。
深度学习在CTR预测中的应用
近年来,受深度学习在计算机视觉和自然语言处理领域的成功启发,基于深度学习的方法被引入CTR预测任务。这些方法遵循"嵌入层+多层感知机(Embedding&MLP)"范式:首先将大规模稀疏特征映射为低维嵌入向量,转换为定长向量,最后拼接输入全连接层(MLP)以学习特征间非线性关系。相比传统逻辑回归模型,此类方法显著减少了特征工程工作量并提升了模型能力。
用户兴趣多样性的表达瓶颈
然而,Embedding&MLP方法中有限维度的用户表示向量难以充分表达用户多样化的兴趣。以电商展示广告为例,用户可能同时关注多种商品,但现有方法通过将用户行为嵌入向量压缩为单一固定长度向量(位于欧氏空间)来表征兴趣,导致多样性受限。虽然增加向量维度可提升表达能力,但会引发参数爆炸、过拟合风险,并增加计算和存储负担,对工业级在线系统不友好。
深度兴趣网络(DIN)的提出
实际上,预测特定广告的点击行为时,仅需关注用户的部分相关兴趣。例如,女性游泳者点击泳镜广告更可能与近期购买的泳衣相关,而非上周购买的鞋子。基于此,提出深度兴趣网络(DIN),通过自适应计算用户兴趣表示向量,考虑候选广告与历史行为的相关性。DIN引入局部激活单元,软搜索历史行为中相关部分,通过加权池化得到针对候选广告的用户兴趣表示。相关性高的行为获得更大权重,主导兴趣表征。实验显示,用户兴趣表示随广告动态变化,在有限维度下提升模型表达能力,更精准捕捉用户多样化兴趣。
工业级深度网络的大规模稀疏特征训练挑战
训练具有大规模稀疏特征的工业级深度网络面临巨大挑战。例如,基于SGD的优化方法仅更新每个小批次中出现的稀疏特征对应参数。然而,若结合传统的L2正则化,计算将变得不可行------每个小批次需计算全部参数(规模可达数十亿)的L2范数。本文提出一种新型的小批次感知正则化方法,仅对当前小批次中非零特征对应的参数计算L2范数,从而显著降低计算开销。
自适应激活函数设计
提出一种数据自适应的激活函数,通过根据输入分布动态调整修正点(rectified point),泛化了常用的PReLU。该设计被证明能有效提升稀疏特征工业级网络的训练效果。
论文核心贡献
- 深度兴趣网络(DIN):针对固定长度向量难以表达用户多样化兴趣的局限性,设计了一种通过局部激活单元自适应学习用户历史行为与广告相关兴趣表征的模型。DIN显著提升了模型的表达能力,更好地捕捉用户兴趣的多样性特征。
- 工业级训练技术 :
- 小批次感知正则化器:避免对海量参数进行全局正则化计算,在减少计算负担的同时有效防止过拟合。
- 数据自适应激活函数:基于输入分布泛化PReLU,实际应用中表现优异。
- 实验与部署:在公开数据集和阿里巴巴数据集上的实验验证了DIN及训练技术的有效性。相关方法已部署于全球最大广告平台之一的阿里巴巴商业展示广告系统,带来显著业务提升。
应用场景与论文结构
本文聚焦电商展示广告中的CTR预测建模,所提方法同样适用于具有丰富用户行为的场景(如电商个性化推荐、社交网络信息流排序等)。论文结构包括:第2章讨论相关工作,第3章介绍电商广告场景的用户行为数据特性,第4-5章详述DIN模型及训练技术设计,第6-7章展示实验与结论。
2 相关工作
CTR预测模型的结构演变
CTR预测模型结构经历了从浅层到深层的演进。随着样本量和特征维度的不断扩大,为了更好地提取特征关系以提升性能,许多研究聚焦于模型结构的设计。
早期嵌入技术的启发
NNLM作为先驱工作,通过为每个词学习分布式表示(即嵌入),避免了语言建模中的维度灾难。这一方法启发了众多自然语言模型和需要处理大规模稀疏输入的CTR预测模型。
单隐藏层网络的演进
LS-PLM和FM模型可视为单隐藏层网络,先对稀疏输入进行嵌入层处理,再通过特定设计的变换函数拟合目标,旨在捕捉特征间的组合关系。
深度网络的扩展与改进
Deep Crossing、Wide&Deep和YouTube推荐CTR模型通过用复杂MLP网络替代变换函数,显著提升了模型能力。PNN在嵌入层后引入乘积层以捕捉高阶特征交互,而DeepFM则在Wide&Deep的"宽"模块中直接引入因子分解机,无需人工特征工程。这些方法均采用"嵌入层(学习稀疏特征的稠密表示)+ MLP(自动学习特征组合关系)"的通用结构,大幅减少了人工特征工程的工作量。
变长序列特征的挑战
在用户行为丰富的场景中,特征常包含变长ID列表(如搜索词或观看视频)。传统方法通过求和/平均池化将嵌入向量转换为定长向量,导致信息丢失。DIN通过针对给定广告自适应学习表示向量,解决了这一问题。
注意力机制的应用
注意力机制源于神经机器翻译(NMT),通过加权求和关注与当前目标相关的信息。DeepIntent在搜索广告中应用注意力机制,使用RNN建模文本并学习全局隐藏向量以聚焦关键词。DIN则设计了局部激活单元,软搜索相关用户行为并通过加权池化获得用户兴趣的自适应表示,其用户表示向量随广告变化,与DeepIntent的固定表示不同。
大规模部署实践
DIN的代码已开源,并展示了如何在全球最大广告系统中成功部署该模型,其中采用了训练超大规模深度网络(参数达数亿级)的创新技术。
3 背景介绍
在阿里巴巴等电子商务平台中,广告本质上也是一种商品。本文后续若无特殊说明,均将广告视为商品。图1简要展示了阿里巴巴展示广告系统的运行流程,主要包含两个阶段:
- 匹配阶段:通过协同过滤等方法生成与访问用户相关的候选广告列表。
- 排序阶段:预测每条广告的点击率(CTR),并筛选排名靠前的广告。
每天有数亿用户访问电商平台,产生大量用户行为数据,这些数据对构建匹配和排序模型至关重要。值得注意的是,历史行为丰富的用户通常具有多元兴趣。例如,一位年轻母亲近期浏览的商品包括羊毛大衣、T恤、耳环、手提包、皮革手袋和儿童外套,这些行为数据暗示了她的购物兴趣。当她访问平台时,系统会展示与之匹配的广告(如新款手袋),但该广告仅激活或匹配了她部分兴趣。
综上所述,行为丰富的用户兴趣具有多样性,且可能因特定广告局部激活。后文将证明,利用这一特性对构建CTR预测模型具有重要意义。
4 深度兴趣网络DIN
与搜索广告不同,用户在进入展示广告系统时通常没有明确表达意图。因此,在构建点击率(CTR)预测模型时,需要有效的方法从丰富的历史行为中提取用户兴趣。
用户和广告的特征是广告系统点击率建模的基本要素。合理利用这些特征并从中挖掘信息至关重要。
4.1 特征表示
工业界CTR(点击率)预测任务中的数据通常以多组分类形式存在,例如:[weekday=Friday, gender=Female, visited_cate_ids={Bag,Book}, ad_cate_id=Book]。这类数据通常通过编码方式(如[4, 19, 21])转换为高维稀疏二值特征。
数学表达
第i个特征组的编码向量定义为,其中
表示该特征组的维度(即该组包含
个唯一ID)。向量
的第j个元素
,且满足
。当
时为独热编码(one-hot),
时为多热编码(multi-hot)。
实例表示
一个样本可表示为,其中:
为特征组的数量
(
为整个特征空间的维度)
例如,前述包含4组特征的实例可表示为:

本系统使用的全部特征集如表1所示,包含四个类别。其中用户行为特征通常采用多热编码向量形式,蕴含丰富的用户兴趣信息。需注意当前设定中未使用组合特征,特征间的交互作用通过深度神经网络捕捉。

4.2 基础模型(嵌入层与多层感知机)
多数主流模型结构[3, 4, 21]采用相似的嵌入层与多层感知机范式(称为基础模型),如图2左侧所示。其核心组件如下:

嵌入层
输入是高维二进制向量,嵌入层将其转换为低维稠密表示。对于第i个特征组,定义嵌入词典
,其中
是维度为
的嵌入向量。嵌入操作遵循查表机制(见图2):
- 若
是独热编码(仅第
个元素
),其嵌入表示为单个向量
。
- 若
是多热编码(
对应
),则嵌入表示为向量列表
。
池化层与连接层
用户行为数量差异导致多热特征向量的非零值数量不同,嵌入向量列表长度可变。全连接网络需固定长度输入,通常通过池化层将嵌入向量列表转换为定长向量:

最常用的两种池化层
求和池化(sum pooling)与平均池化(average pooling),它们对嵌入向量列表执行逐元素的求和或平均操作。嵌入层和池化层均以分组方式运作,将原始稀疏特征映射为多个固定长度的表示向量,随后将这些向量拼接起来,形成实例的整体表示向量。
多层感知机(MLP)
给定拼接后的稠密表示向量,全连接层用于自动学习特征的组合。近期研究的方法[4, 5, 10]侧重于设计MLP结构以优化信息提取。
损失函数
基础模型使用的目标函数为负对数似然函数,其定义为:

在训练集大小为 ( N ) 的情况下,( S ) 表示训练集,其中 ( x ) 为网络的输入,( ) 为标签。( p(x) ) 是经过 softmax 层后网络的输出,表示样本 ( x ) 被点击的预测概率。
4.3 深度兴趣网络的结构
在表1的所有特征中,用户行为特征至关重要,在电子商务应用场景中对用户兴趣建模起关键作用。
基础模型通过对用户行为特征组的所有嵌入向量进行池化,生成一个固定长度的用户兴趣表示向量,如公式(1)所示。对于给定用户,无论候选广告是什么,该表示向量保持不变。这种方式下,有限维度的用户表示向量会成为表达用户多样化兴趣的瓶颈。
为了增强表达能力,一种简单的方法是扩大嵌入向量的维度,但这会大幅增加学习参数规模,导致有限训练数据下的过拟合,并增加计算和存储负担,这在工业级在线系统中可能无法承受。
是否存在一种优雅的方式,在有限维度下用一个向量表示用户的多样化兴趣?用户兴趣的局部激活特性为设计深度兴趣网络(DIN)提供了灵感。
设想前文提到的年轻母亲访问电商网站时,看到展示的新款手提包很可爱并点击了它。点击行为的驱动力在于:展示的广告通过软搜索她的历史行为,发现她最近浏览过类似的手提包和皮革包商品,从而触发了她的相关兴趣。换句话说,与展示广告相关的行为对点击行为贡献更大。
DIN通过关注给定广告的局部激活兴趣表示来模拟这一过程。DIN不再用同一向量表达用户的所有多样化兴趣,而是根据历史行为与候选广告的相关性自适应计算用户兴趣的表示向量。该表示向量会随不同广告而变化。
图2右侧展示了DIN的架构。与基础模型相比,DIN引入了新颖设计的局部激活单元,其余结构保持不变。具体来说,激活单元作用于用户行为特征,通过加权求和池化自适应计算用户表示向量,如公式(3)所示。

局部激活单元
{e1, e2, ..., eH} 是用户U行为嵌入向量的列表,长度为H,vA是广告A的嵌入向量。通过这种方式,vU(A)会因不同广告而变化。a(·)是一个前馈网络,输出作为激活权重,如图2所示。除了两个输入嵌入向量外,a(·)还将它们的外积作为后续网络的输入,这是一种显式知识,有助于相关性建模。
与传统注意力机制的区别
式(3)的局部激活单元与神经机器翻译任务中的注意力方法有相似之处。但与传统注意力方法不同,式(3)放宽了Σwi=1的约束,目的是保留用户兴趣的强度。也就是说,放弃了在a(·)输出上使用softmax进行归一化。相反,Σwi的值在一定程度上被视为激活用户兴趣强度的近似值。例如,如果一个用户的历史行为包含90%的服装和10%的电子产品,给定T恤和手机两个候选广告,T恤会激活大部分属于服装的历史行为,并可能获得比手机更大的vU值(更高的兴趣强度)。传统注意力方法通过对a(·)的输出进行归一化,失去了vU数值尺度的分辨率。
用户行为序列建模
尝试过使用LSTM以序列方式建模用户历史行为数据,但未显示出改进。与自然语言处理任务中受语法约束的文本不同,用户历史行为的序列可能包含多个并发兴趣。这些兴趣之间的快速跳跃和突然结束使得用户行为序列数据显得嘈杂。一个可能的方向是设计特殊结构以序列方式建模此类数据,这留待未来研究。
5 训练技术
在阿里巴巴的广告系统中,商品和用户的数量规模高达数亿级别。实际应用中,训练具有大规模稀疏输入特征的工业级深度网络面临巨大挑战。本节介绍两种在实践中被证明有效的关键技术。
5.1 小批量敏感正则化
过拟合是训练工业级网络的核心挑战。例如,当加入细粒度特征(如表1所述的用户历史访问商品ID和广告商品ID等维度高达6亿的特征)时,若未使用正则化,模型性能在训练第一个周期后迅速下降(如后文6.5节图4中深绿色曲线所示)。传统正则化方法(如L2和L1正则化)难以直接应用于稀疏输入且参数规模达数亿的网络训练。

以L2正则化为例:在无正则化的基于SGD的优化方法中,仅需更新每个小批量内非零稀疏特征对应的参数;而引入L2正则化后,需为每个小批量计算全部参数的L2范数。当参数规模达到数亿时,此类计算开销极高且无法接受。
本文提出了一种高效的小批量感知正则化方法,该方法仅计算每个小批量中出现的稀疏特征参数的L2范数,从而使得计算成为可能。实际上,正是嵌入字典占据了CTR网络中的大部分参数,并引发了计算量巨大的难题。设 表示整个嵌入字典的参数,其中
为嵌入向量的维度,
为特征空间的维度。将
正则化在样本上展开。

其中, 表示第
个嵌入向量,
表示实例
是否具有特征 ID
,
表示所有样本中特征 ID
的出现次数。公式(4)可以转换为小批量感知形式下的公式(5)。

其中, 表示小批次(mini-batch)的数量,
表示第
个小批次。定义
,用于判断小批次
中是否存在至少一个样本包含特征 ID
。此时,式(5)可通过以下方式近似:

梯度计算与L2正则化
通过这种方式,可以推导出近似的小批量感知版L2正则化方法。对于第m个小批量,特征j的嵌入权重的梯度为:

仅在第 m 个小批量(mini-batch)中出现的特征对应的参数会参与正则化的计算。
5.2 数据自适应激活函数
PReLU(Parametric Rectified Linear Unit)[12] 是一种常用的激活函数,其特点是通过可学习的参数调整负值区域的斜率,从而提升模型的表达能力。

其中,s 是激活函数 f(·) 输入的一个维度,p(s) = I(s > 0) 是指示函数,用于控制 f(s) 在两种通道之间切换:f(s) = s 和 f(s) = αs。第二通道中的 α 是一个可学习参数。此处将 p(s) 称为控制函数。图3左侧展示了PReLU的控制函数。PReLU采用值为0的硬修正点,当每一层的输入遵循不同分布时可能不够理想。基于此,设计了一种新型数据自适应激活函数,命名为Dice。


上述控制函数,如图3右侧;在训练阶段,E[s]和Var[s]表示每个小批量输入数据的均值和方差。在测试阶段,E[s]和Var[s]通过数据的移动平均值计算得出。ε是一个极小常数,实践中设置为10⁻⁸。
Dice激活函数与PReLU的关系
Dice可视为PReLU(带参数整流线性单元)的泛化形式。其核心思想是根据输入数据的分布自适应调整整流点,该点的值被设定为输入数据的均值。
平滑切换机制
Dice通过平滑控制实现两个通道(激活与抑制)之间的切换。当输入数据的期望值 ( E(s) = 0 ) 且方差 ( ) 时,Dice退化为标准的PReLU。
6 实验部分
本节详细介绍了实验设置,包括数据集、评估指标、实验配置、模型对比及相关分析。通过在两个包含用户行为的公开数据集及阿里巴巴展示广告系统采集的数据集上进行测试,所提方法在点击率(CTR)预测任务中优于现有技术。公开数据集及实验代码均已开源。
6.1 数据集与实验配置
亚马逊数据集
亚马逊数据集包含产品评论及元数据,作为基准数据集被广泛引用。实验选取其子集"Electronics",涵盖192,403名用户、63,001件商品、801个类别及1,689,188条样本。用户行为数据丰富,平均每用户和商品拥有超过5条评论。特征包括商品ID、类别ID、用户历史评论商品ID列表及类别ID列表。给定用户行为序列,任务是利用前
次评论预测第
次评论商品。训练集为每个用户生成
的序列,测试集则用前
次行为预测最后一次。所有模型均采用学习率初始为1、衰减率0.1的SGD优化器,批量大小为32。
MovieLens数据集
该数据集包含138,493名用户、27,278部电影、21个类别及20,000,263条样本。为适配CTR预测任务,将原始1-5分评分转化为二分类标签:4-5分为正样本,其余为负样本。按用户ID划分数据集,随机选取100,000名用户(约14,470,000样本)作为训练集,剩余38,493名(约5,530,000样本)作为测试集。任务是根据用户历史行为预测其是否对某部电影给出高于3分的评分。特征包括电影ID、电影类别ID及用户历史评分电影ID列表、类别ID列表。优化器配置与亚马逊数据集相同。
阿里巴巴数据集
数据来自阿里巴巴展示广告系统流量日志,训练集为两周样本(约20亿条),测试集为次日样本(约1.4亿条)。所有深度模型的嵌入向量维度统一为12(共16组特征),MLP层结构为192×200×80×2。由于数据量庞大,批量大小设为5000,采用初始学习率0.001、衰减率0.9的Adam优化器。
表2展示了上述数据集的统计信息。阿里巴巴数据集的规模远超亚马逊和MovieLens,这为模型性能带来更大挑战。

6.2 竞争对手模型
• LR(逻辑回归)[19]。逻辑回归(LR)是深度网络兴起前广泛应用于CTR预测任务的浅层模型。此处将其作为弱基线模型实现。
• BaseModel(基础模型)。如第4.2节所述,BaseModel采用Embedding&MLP架构,是后续多数CTR深度网络模型的基础。在本实验中作为强基线用于对比。
• Wide&Deep[4]。该模型在工业界被广泛采用,包含两部分:
- Wide部分:处理人工设计的交叉特征;
- Deep部分 :自动提取特征间非线性关系,结构与BaseModel一致。
Wide&Deep需对"Wide"模块输入进行专业特征工程。参考[10]的实现,采用用户行为与候选对象的交叉特征作为输入(例如在MovieLens数据集中,指用户已评分电影与候选电影的交叉组合)。
• PNN(乘积神经网络)[5]。可视为BaseModel的改进版,通过在嵌入层后引入乘积层捕捉高阶特征交互。
• DeepFM[10]。该模型以因子分解机替代Wide&Deep中的"Wide"模块,省去了人工特征工程步骤。
6.3 评估指标
在点击率(CTR)预测领域,AUC(曲线下面积)是一种广泛使用的指标[8]。它通过按预测CTR对所有广告进行排序来衡量顺序的优劣,包括用户内部和用户间的排序。文献[7, 13]提出了一种用户加权AUC的变体,通过对用户取平均AUC来衡量用户内部排序的优劣,并证明其在展示广告系统中与在线性能更具相关性。实验中也采用了这一指标,为简化表述仍称为AUC。其计算方式如下:

其中,n 为用户数量, #和
分别表示第 i 位用户的展示次数及对应的 AUC 值。此外,参照文献 [25] 引入 RelaImpr 指标来衡量模型间的相对改进效果。对于随机猜测模型,AUC 值为 0.5。因此 RelaImpr 定义如下:

6.4 模型在Amazon数据集和MovieLens数据集上的对比结果

表3展示了在Amazon数据集和MovieLens数据集上的实验结果。所有实验均重复5次并报告平均值。随机初始化对AUC指标的影响小于0.0002。显然,所有深度网络模型均显著优于逻辑回归(LR)模型,充分证明了深度学习的优势。具有特殊结构设计的PNN和DeepFM表现优于Wide&Deep,而DIN在所有对比模型中表现最佳。
在用户行为数据丰富的Amazon数据集上,DIN的优势尤为突出。这一优势归功于DIN中局部激活单元(local activation unit)的设计。DIN通过软搜索(soft-searching)与候选广告相关的用户行为片段,聚焦于局部相关的用户兴趣。该机制使DIN能够动态生成用户兴趣的表征,相比其他深度网络大幅提升了模型的表达能力。
此外,采用Dice激活函数的DIN模型进一步超越了原始DIN,验证了所提出的数据自适应激活函数Dice的有效性。
6.5 正则化方法性能对比
在亚马逊数据集和MovieLens数据集中,特征维度较低(约10万维),包括DIN在内的深度学习模型未出现严重过拟合问题。然而,在阿里巴巴在线广告系统的高维稀疏特征场景下(例如表1中维度达6亿的goods_id细粒度特征),过拟合成为显著挑战。若无正则化,模型在第一轮训练后即出现严重过拟合(图4深绿色曲线),导致性能急剧下降。
针对此问题,实验对比了以下常用正则化方法的效果:
- Dropout[22]:随机丢弃每个样本中50%的特征ID。
- 频率过滤 :仅保留样本中出现频率最高的
goods_id,实验中保留前2000万高频ID。 - DiFacto正则化[16]:对高频特征关联的参数施加较弱正则化惩罚。
- MBA(Mini-Batch Aware):提出的基于小批量的自适应正则化方法(公式4)。DiFacto与MBA的正则化系数λ均设为0.01。


图4与表4的结果显示:
- 使用细粒度
goods_id特征的模型在第一轮训练时测试AUC显著提升,但无正则化时迅速过拟合。 - Dropout减缓了过拟合,但收敛速度变慢;频率过滤部分缓解过拟合,但丢弃低频ID可能损失细粒度特征的潜在信息。
- DiFacto对高频ID惩罚更强,效果弱于频率过滤;MBA方法表现最优,显著抑制过拟合。
此外,引入goods_id特征的模型最终AUC优于未引入的模型,印证细粒度特征的信息价值。尽管频率过滤略优于Dropout,其舍弃大量低频ID可能限制模型进一步挖掘特征的能力。
6.6 阿里巴巴数据集上的模型对比结果
表5展示了阿里巴巴数据集在完整特征集(如表1所示)上的实验结果。与预期一致,逻辑回归(LR)的表现远弱于深度学习模型。在深度学习模型间的对比中,得出以下结论:

深度兴趣网络(DIN)在相同的激活函数和正则化条件下,性能显著优于其他深度模型(包括BaseModel、Wide&Deep、PNN和DeepFM)。DIN相比BaseModel实现了0.0059的绝对AUC提升和6.08%的相对改进(RelaImpr),再次验证了局部激活单元结构的有效性。
基于DIN的消融实验证明了所提出的训练技术的效果:采用小批量感知正则化(MBA)的DIN比仅使用Dropout的版本额外提升0.0031绝对AUC;使用Dice激活函数的DIN比PReLU版本额外提升0.0015绝对AUC。
综合来看,配备MBA正则化和Dice的DIN相比BaseModel实现了11.65%的相对改进和0.0113的绝对AUC提升。即使与在该数据集上表现最佳的竞争模型DeepFM相比,DIN仍保持0.009的绝对AUC优势。需注意的是,在日均流量数亿的商业广告系统中,0.001的AUC提升即具有显著意义,足以支持模型部署。
DIN展现出对用户行为数据特性的深刻理解和利用能力。此外,提出的两项技术进一步提升了模型性能,为大规模工业级深度网络的训练提供了有效支持。
6.7 阿里巴巴展示广告系统的在线A/B测试结果
2017年5月至6月期间,阿里巴巴展示广告系统进行了严谨的在线A/B测试。经过近一个月的测试,采用提出的正则化方法和激活函数训练的DIN模型,与基准模型(即线上服务模型的上一版本)相比,点击率(CTR)提升高达10.0%,每千次展示收入(RPM)提升3.8%。这一显著改进证明了所提方法的有效性。目前DIN已部署上线并承担主要流量。
工业级深度网络的在线服务挑战
工业级深度网络的在线服务并非易事,系统每天需应对数亿用户的访问。尤其在流量高峰时段,每秒需服务超过100万用户。系统需在高吞吐量和低延迟条件下实现实时点击率预测,例如实际场景中需在10毫秒内为每位用户完成数百个广告的预测。
CPU-GPU架构下的关键技术优化
实践中采用多项关键技术加速工业级深度网络的在线服务:
- 请求批处理:合并CPU端的相邻请求以充分利用GPU算力
- GPU内存优化:改进访问模式以减少GPU内存中的无效事务
- 并发核计算:通过多CUDA核并行执行矩阵运算
这些优化技术使单机QPS(每秒查询量)实际提升了一倍,DIN的在线服务也从中受益。
6.8 DIN的可视化分析
最后通过案例研究揭示DIN在阿里巴巴数据集上的内部结构。首先检验局部激活单元的有效性,图5展示了用户行为相对于候选广告的激活强度。与预期一致,与候选广告相关性高的行为被赋予更高权重。
嵌入向量的可视化
以之前提到的年轻母亲用户为例,随机选择9个商品类别(连衣裙、运动鞋、背包等)及每类100个商品作为候选广告。图6通过t-SNE算法对DIN学习到的商品嵌入向量进行可视化,相同形状的点对应同一类别。可见同类商品基本聚为一簇,清晰体现了DIN嵌入的聚类特性。

兴趣密度分布
根据预测值为候选广告对应的点着色,图6同时展示了该母亲用户在嵌入空间中对潜在候选商品的兴趣密度分布热力图。结果表明,DIN能在候选商品的嵌入空间中形成多峰兴趣密度分布,从而捕捉用户的多样化兴趣。
7 结论
本文聚焦于电子商务展示广告场景下的点击率(CTR)预测建模任务,该场景拥有丰富的用户行为数据。传统深度CTR模型采用固定长度的表征方式,限制了用户兴趣多样性的捕捉能力。为提升模型表达能力,提出了一种名为DIN(深度兴趣网络)的新方法,通过动态激活相关用户行为,生成随不同广告变化的用户兴趣自适应表征向量。
此外,针对工业级深度网络的训练难题,引入两项创新技术以优化DIN的性能。这些技术可轻松迁移至其他工业深度学习任务。目前,DIN已在阿里巴巴展示广告系统中实现线上部署。
本篇论文已经详细描述完成,下篇文章会就论文重点部分进行提炼,以及代码实战进行详细讲解。
原文代码:https://github.com/zhougr1993/DeepInterestNetwork

