如何利用「深度上下文兴趣网络」提升点击率？

美团到店广告平台在用户行为序列建模算法的迭代落地中，基于对业务实际场景中用户决策心智的观察，创新性地提出了深度上下文兴趣网络，精确建模了用户的兴趣，提升了CTR等线上业务指标。本文介绍了相应算法背后的动机、建模方法以及工程优化，希望能为从事相关工作的同学带来一些启发或帮助。

点击率（CTR）预测是在线广告、推荐系统等领域的一个基础任务，主要目标是预测用户点击某个Item的概率。用户行为序列中蕴含着丰富的用户兴趣信息，这对于CTR预测至关重要。然而，大部分用户行为序列模型只从用户的点击行为中建模用户的正向兴趣，而忽视了上下文信息，即点击Item周围的其他Item，导致效果受限。

我们认为上下文信息在用户行为序列建模中非常重要，因此提出了一种名为深度上下文兴趣网络（DCIN）的新模型，可以对点击及点击周围的展示上下文进行统一建模，以学习用户的上下文感知兴趣。DCIN由三个关键模块组成：1）位次感知的上下文聚合模块（PCAM），通过注意力机制对展示Item进行聚合；2）反馈-上下文融合模块（FCFM），通过非线性特征交互，融合点击和展示上下文的表征；3）兴趣匹配模块（IMM），激活与目标Item相关的兴趣。

此外，我们还对线上性能进行了针对性优化，使得DCIN模型可以在大规模的工业广告系统上部署。我们提出的DCIN方法在离线和线上实验中都取得了显著的效果提升。目前已经在我们美团线上广告系统落地并全量，带来了1.5%的CTR提升和1.5%的RPM提升。

1. 背景

点击率（CTR）预测任务的目标是预测用户对某个Item的点击概率，这对于在线广告和推荐系统等领域至关重要^[5, 16]^{。这里我们主要关注CTR预测中的用户行为序列建模问题。用户行为序列建模的目标是挖掘用户行为序列中蕴含的丰富的用户兴趣，更准确地理解用户的兴趣和偏好，从而提供更个性化的推荐服务。许多工作}[7, 11, 13, 18, 21, 22]^从用户的点击行为中捕捉用户的兴趣，大大提高了CTR模型的效果。

然而，一些研究^[13, 15]^{发现用户的点击行为并不能完整地刻画用户兴趣，导致仅从用户点击行为中得到的用户表征有偏。为了解决这个问题，DFN}[17]^、DUMN[1]^{等一些开创性的工作引入了用户的未点击行为来捕捉用户的负面偏好（如不喜欢），取得了不错的效果。不过这些方法虽然引入了未点击行为，但它们将用户的点击和未点击行为分开建模，忽视了点击和未点击Item之间的交互。通常，智能手机的屏幕可以同时展示许多Item。用户的点击行为不仅由目标Item与用户兴趣之间的匹配程度决定，而且还受到展示上下文的影响}[2, 12, 20]^。

如下图1所示，当用户想买一件T恤时，如果周围的Item是智能手机、鞋子或吹风机，他可能会点击绿色T恤，因为这些Item对他来说很无聊。但是，当周围的展示Item都是T恤时，他可能会点击蓝色的那一个，因为蓝色T恤比绿色T恤更符合他的兴趣。基于上述分析，我们认为展示上下文在用户兴趣建模中也是至关重要的。

为了从用户的点击行为和相应的展示上下文中提取出具有上下文感知的用户兴趣表征，我们提出了深度上下文兴趣网络（DCIN）。具体来说，我们首先设计了一个位次感知的上下文聚合模块（PCAM），该模块通过注意力机制对展示Item进行聚合。同时，我们考虑到位次偏差^[9, 10]^，并将位次信息集成到PCAM中。

其次，我们通过反馈-上下文融合模块（FCFM），利用非线性特征交互将点击和相应的展示上下文的表征融合在一起，以捕捉用户的上下文相关兴趣。最后，我们使用兴趣匹配模块（IMM）来匹配与目标Item相关的行为。此外，我们还设计了相应的线上落地方案，使得DCIN模型可以在大规模的工业系统上部署。具体来说，我们的贡献如下：

我们强调了引入上下文信息进行用户兴趣建模的重要性。上下文信息可以帮助我们更准确、全面地捕捉用户的兴趣；
我们创新性地设计了序列模型DCIN，它有效地集成了展示上下文和位次信息，以获取用户的上下文感知兴趣；
我们进行了广泛的线下和线上实验，结果都证明了DCIN的优越性。目前DCIN已经在我们的在线广告系统中全量，并带来了1.5%的点击率（CTR）提升和1.5%的每千次展示收入（RPM）的提升。

2. 深度上下文兴趣网络

2.1 CTR模型介绍

点击率预估是在给定用户行为 <math xmlns="http://www.w3.org/1998/Math/MathML"> C C </math>C（点击行为）和 <math xmlns="http://www.w3.org/1998/Math/MathML"> D D </math>D（浏览行为），以及上下文 <math xmlns="http://www.w3.org/1998/Math/MathML"> c c </math>c的情况下，使用模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> F F </math>F预测用户 <math xmlns="http://www.w3.org/1998/Math/MathML"> u u </math>u点击目标Item <math xmlns="http://www.w3.org/1998/Math/MathML"> t t </math>t的概率 <math xmlns="http://www.w3.org/1998/Math/MathML"> p p </math>p,公式为 <math xmlns="http://www.w3.org/1998/Math/MathML"> p = F ( C , D , u , t , c ) p=F(C,D,u,t,c) </math>p=F(C,D,u,t,c)。用户的历史点击行为是一个包含对应特征（如Item id、类别等）的点击项目的顺序列表，即 <math xmlns="http://www.w3.org/1998/Math/MathML"> C = { 𝑐 1 , 𝑐 2 , ... , 𝑐 𝑁 } C = \{𝑐_1,𝑐_2,\dots,𝑐_𝑁\} </math>C={c1,c2,...,cN}，其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> c i c_i </math>ci是第 <math xmlns="http://www.w3.org/1998/Math/MathML"> i i </math>i个点击Item， <math xmlns="http://www.w3.org/1998/Math/MathML"> N N </math>N表示点击序列的长度。

为了建模展示上下文，我们为每个点击选择 <math xmlns="http://www.w3.org/1998/Math/MathML"> M M </math>M个对应的展示Item，因此用户的浏览行为 <math xmlns="http://www.w3.org/1998/Math/MathML"> D D </math>D可以表示为： <math xmlns="http://www.w3.org/1998/Math/MathML"> D = [ 𝑑 11 , 𝑑 12 , ... , 𝑑 1 M ] , ... , [ 𝑑 N 1 , 𝑑 N 2 , ... , 𝑑 N M ] D = {[𝑑_{11}, 𝑑_{12},\dots, 𝑑_{1M}],\dots, [𝑑_{N1}, 𝑑_{N2}, \dots, 𝑑_{NM}]} </math>D=[d11,d12,...,d1M],...,[dN1,dN2,...,dNM]，其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> d i j d_{ij} </math>dij是点击 <math xmlns="http://www.w3.org/1998/Math/MathML"> c i c_i </math>ci周围的第 <math xmlns="http://www.w3.org/1998/Math/MathML"> j j </math>j个展示Item。在为每次点击选择周围的展示Item时，我们试图将点击保持在中间。我们用 <math xmlns="http://www.w3.org/1998/Math/MathML"> p i p_i </math>pi和 <math xmlns="http://www.w3.org/1998/Math/MathML"> q i j q_{ij} </math>qij分别表示 <math xmlns="http://www.w3.org/1998/Math/MathML"> c i c_i </math>ci和 <math xmlns="http://www.w3.org/1998/Math/MathML"> d i j d_{ij} </math>dij的绝对位次。我们还计算 <math xmlns="http://www.w3.org/1998/Math/MathML"> c i c_i </math>ci和 <math xmlns="http://www.w3.org/1998/Math/MathML"> d i j d_{ij} </math>dij之间的相对位次 <math xmlns="http://www.w3.org/1998/Math/MathML"> 𝑟 𝑖 𝑗 = 𝑝 𝑖 − 𝑞 𝑖 𝑗 𝑟_{𝑖𝑗}=𝑝_𝑖-𝑞_{𝑖𝑗} </math>rij=pi−qij。我们利用广泛使用的Embedding技术将稀疏特征转化为低维度的稠密向量。例如， <math xmlns="http://www.w3.org/1998/Math/MathML"> e 𝑐 𝑖 e_{𝑐_𝑖} </math>eci代表点击Item <math xmlns="http://www.w3.org/1998/Math/MathML"> 𝑐 𝑖 𝑐_𝑖 </math>ci的Embedding。

2.2 深度上下文兴趣网络

DCIN的架构如下图2所示，主要包含三个模块。具体来说，我们首先设计了位次感知的上下文聚合模块（PCAM），通过注意力机制来聚合展示上下文。然后，我们通过反馈-上下文融合模块（FCFM），利用非线性特征交互融合点击和相应的展示上下文，以获取上下文感知的兴趣表征。最后，我们使用兴趣匹配模块（IMM），自适应地学习与目标Item相关的用户兴趣。

2.2.1 深度上下文兴趣网络

如图1所示，智能手机一屏通常会展示很多Item。用户的点击行为不仅由Item与他们的兴趣之间的匹配程度决定，也受到展示上下文的影响^[2, 20]^。然而，仅从他们的点击行为中建模用户的兴趣会忽略上下文信息，导致提取的兴趣表征有偏。为了捕获用户的上下文感知兴趣，我们设计了PCAM，它通过注意力机制为每次点击聚合展示上下文。

此外，用户通常倾向于点击屏幕上的位次靠前的Item（称为位次偏差^[9, 10]^），而不考虑相关性。因此，Item的位次同样影响用户的点击行为。我们还将位次信息集成到PCAM中，以更好地理解用户的实际兴趣。因此，PCAM可以被公式化如下：
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> v i = ∑ j = 1 M μ i j W V e d i j , v_{i}=\sum_{j=1}^M\mu_{ij}W_V{e}{d{ij}}, </math>vi=j=1∑MμijWVedij,

其中， <math xmlns="http://www.w3.org/1998/Math/MathML"> v i v_i </math>vi代表点击 <math xmlns="http://www.w3.org/1998/Math/MathML"> c i c_i </math>ci对应的展示上下文，表示为展示Item <math xmlns="http://www.w3.org/1998/Math/MathML"> e 𝑑 𝑖 𝑗 e_{𝑑_{𝑖𝑗}} </math>edij的加权总和， <math xmlns="http://www.w3.org/1998/Math/MathML"> W V W_V </math>WV是学习参数。 <math xmlns="http://www.w3.org/1998/Math/MathML"> μ 𝑖 𝑗 \mu_{𝑖𝑗} </math>μij是注意力权重，可以被表示为：
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> μ i j = e x p ( α i j ) ∑ j = 1 M e x p ( α i j ) , α i j = W Q x c i ⋅ W K x d i j + e r i j , \begin{align*} &\mu_{ij}=\frac{exp(\alpha_{ij})}{\sum_{j=1}^Mexp(\alpha_{ij})}, \\ &\alpha_{ij}=W_Q{x}{c_i}\cdot W_K{x}{d_{ij}}+e_{r_{ij}}, \end{align*} </math>μij=∑j=1Mexp(αij)exp(αij),αij=WQxci⋅WKxdij+erij,

其中， <math xmlns="http://www.w3.org/1998/Math/MathML"> α 𝑖 𝑗 \alpha_{𝑖𝑗} </math>αij是第 <math xmlns="http://www.w3.org/1998/Math/MathML"> i i </math>i次点击与其第 <math xmlns="http://www.w3.org/1998/Math/MathML"> j j </math>j个展示Item之间的相关性， <math xmlns="http://www.w3.org/1998/Math/MathML"> x c i = c o n c a t ( e c 𝑖 , e p i ) x_{c_i}=concat(e_{c_𝑖},e_{p_i}) </math>xci=concat(eci,epi)代表项目嵌入 <math xmlns="http://www.w3.org/1998/Math/MathML"> e c i e_{c_i} </math>eci和其绝对位次 <math xmlns="http://www.w3.org/1998/Math/MathML"> e p i e_{p_i} </math>epi的拼接，同理 <math xmlns="http://www.w3.org/1998/Math/MathML"> x 𝑑 𝑖 𝑗 x_{𝑑_{𝑖𝑗}} </math>xdij。 <math xmlns="http://www.w3.org/1998/Math/MathML"> 𝑒 𝑟 𝑖 𝑗 𝑒_{𝑟_{𝑖𝑗}} </math>erij是相对位次 <math xmlns="http://www.w3.org/1998/Math/MathML"> 𝑝 𝑖 𝑗 𝑝_{𝑖𝑗} </math>pij的一维嵌入向量， <math xmlns="http://www.w3.org/1998/Math/MathML"> W Q W_Q </math>WQ和 <math xmlns="http://www.w3.org/1998/Math/MathML"> W K W_K </math>WK是可学习参数。

2.2.2 反馈-上下文融合模块

以前的用户序列模型^[7, 11, 13, 18, 21, 22]^直接将用户的点击Item视为用户的兴趣，忽略了上下文信息。为了捕捉用户的上下文感知兴趣，我们提出了FCFM来通过非线性特征交互融合点击和相应展示上下文的表征。具体来说，FCFM是通过一个2层的MLP（多层感知器）来实现的：
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> f i ( k + 1 ) = R e L U ( W ( k ) f ( k ) + b ( k ) ) , f^{(k+1)}_i=ReLU(W^{(k)}{f}^{(k)}+{b}^{(k)}), </math>fi(k+1)=ReLU(W(k)f(k)+b(k)),

其中， <math xmlns="http://www.w3.org/1998/Math/MathML"> f i ( k ) {f}^{(k)}i </math>fi(k)是第 <math xmlns="http://www.w3.org/1998/Math/MathML"> k k </math>k层的输出， <math xmlns="http://www.w3.org/1998/Math/MathML"> W ( 𝑘 ) W^{(𝑘)} </math>W(k)和 <math xmlns="http://www.w3.org/1998/Math/MathML"> b ( 𝑘 ) b^{(𝑘)} </math>b(k)是学习参数。其中输入的形式如下：
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> f i ( 0 ) = c o n c a t ( x c i , v i , x c i − v i , x c i ∗ v i ) {f}^{(0)}i=concat({x}{c_i}, {v}{i}, {x}{c_i}-{v}{i}, {x}{c_i}\ast {v}{i}) </math>fi(0)=concat(xci,vi,xci−vi,xci∗vi)

其中， <math xmlns="http://www.w3.org/1998/Math/MathML"> ∗ * </math>∗表示元素间的乘积。然后，我们从点击 <math xmlns="http://www.w3.org/1998/Math/MathML"> c i c_i </math>ci及其相应的展示上下文 <math xmlns="http://www.w3.org/1998/Math/MathML"> v i v_i </math>vi中获得了上下文感知兴趣 <math xmlns="http://www.w3.org/1998/Math/MathML"> I 𝑖 = f 𝑖 2 I_𝑖 = f^2_𝑖 </math>Ii=fi2。为了实现泛化和可训练性，我们在不同的点击中共享可学习的参数。

2.2.3 兴趣匹配模块

通过前两个模块，我们整体地建模了点击Item和其展示上下文，以捕获用户的上下文感知兴趣，表示为 <math xmlns="http://www.w3.org/1998/Math/MathML"> I = I 1 , I 2 , ... , I N I = {I_1, I_2, \dots , I_N} </math>I=I1,I2,...,IN，这比仅从点击行为中提取的用户兴趣更精确和全面。为了捕获与目标Item相关的用户兴趣，我们可以轻松集成最新的序列模型，如DIN^[22]，DIEN^[21]，BST^[3]等。在这里，我们选择了DIN方法来聚合用户兴趣，可以表示为：
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> U = ∑ i = 1 N e x p ( e t ⋅ I i ) ∑ j = 1 N e x p ( e t ⋅ I j ) ⋅ I i , {U}=\sum_{i=1}^N\frac{exp({e}_t\cdot{I}i)}{\sum{j=1}^Nexp({e}_t\cdot{I}_j)}\cdot{I}_i, </math>U=i=1∑N∑j=1Nexp(et⋅Ij)exp(et⋅Ii)⋅Ii,

其中， <math xmlns="http://www.w3.org/1998/Math/MathML"> U U </math>U是最终的用户表示，它将与其他特征拼接后输入到MLP中进行CTR预估。我们使用广泛使用的二分类交叉熵损失函数来训练我们的DCIN模型。

2.3 线上服务优化

对于工业广告系统来说，服务延迟的限制非常严格。由于我们引入了展示Item来捕获用户的上下文感知兴趣，序列长度被扩展了数十倍，而在线模型的服务延迟通常与序列长度成正比，因此直接在工业在线系统中使用DCIN会带来服务延迟的重大负担。为了解决这个问题，我们针对性地进行了一些在线优化。

具体来说，由于PCAM和FCFM与目标Item无关，我们可以提前计算用户的上下文感知兴趣表示 <math xmlns="http://www.w3.org/1998/Math/MathML"> I = I 1 , I 2 , ... , I N I = {I_1, I_2, \dots , I_N} </math>I=I1,I2,...,IN，在线服务时直接将其作为模型的输入。这节省了大量的在线服务时间（约10毫秒），使DCIN可以处理的用户行为序列最大长度比RACP ^[6]（引入了页面反馈建模的SOTA模型）长28倍，并且仅增加约1毫秒的在线延迟。

3. 实验

3.1 实验设置

3.1.1 数据集

将展示上下文和位次信息集成到序列模型中是一种全新的探索，目前缺乏相关的公开数据集。因此，我们从在线广告系统中构建了一个31天的工业数据集，其中包含数十亿的样本。按照惯例，我们将前30天的数据划分为训练集，最后一天的数据划分为测试集，并保留用户最近的50次点击行为，每次点击的周围20个展示Item被用来建模展示上下文。

3.1.2 基线模型

我们选取六种序列模型与DCIN进行比较。所有模型都使用相同的特征进行公平比较：

Wide&Deep^[4] 由一个Wide部分和一个Deep部分组成，用于学习原始和高阶特征交互；
DeepFM^[8] 用FM层替换了Wide&Deep中的Wide部分；
DIN^[22] 引入了一种注意力机制，用于捕获用户对不同目标Item的多样化兴趣；
DIEN^[21] 提出了一个基于门控循环单元（GRU）的兴趣演化层，用于模拟用户的动态兴趣；
DFN^[17] 试图从点击行为中学习正向偏好，从未点击行为中学习负向偏好；
RACP^[6] 引入了页面反馈建模，是已发布的用户行为建模的SOTA方案。

3.1.3 评估指标

我们在CTR预测任务中使用了广泛采用的评估指标AUC，我们进一步引入RelaImpr^[19] 来衡量相对于基础模型的改进：
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> R e l a I m p r = A U C ( m e a s u r e d m o d e l ) − 0.5 A U C ( b a s e m o d e l ) − 0.5 − 1 RelaImpr=\frac{AUC(measured\ model)-0.5}{AUC(base\ model)-0.5}-1 </math>RelaImpr=AUC(base model)−0.5AUC(measured model)−0.5−1

3.2 实验结果

我们重复所有实验5次，并报告他们的平均结果。在实验中，每个特征的嵌入维度为16。FCFM中MLP的隐藏大小和输出层分别为64/16，和1024/512/128。我们使用学习率为1e-4的Adam，Batch Size大小为3000。

3.2.1 离线效果

实验结果如下表所示，从中我们可以发现，我们提出的DCIN在AUC上显著优于所有方法，并在基础模型上实现了21.24%的RelaImpr。如2.3节所介绍，DCIN可以处理的最长用户行为序列比RACP长28倍。为了公平比较，DCIN(Short)使用与RACP相同的序列长度，而DCIN使用我们在线广告系统中实现的更长序列。

具体来说，首先DIN和DIEN比Wide&Deep和DeepFM表现得更好，因为它们捕获了用户对不同目标Item的多样化和时变性兴趣。其次，DFN略微优于DIN和DIEN，因为它试图从未点击行为中捕获不喜欢的信号。第三，RACP比DFN表现得更好，因为它模拟了用户的上下文化页面兴趣。第四，我们提出的DCIN(Short)优于RACP，这出于两方面原因。一方面，RACP只模拟页面兴趣，忽略了同一页面上的不同点击也可能表明不同的兴趣，降低了模型捕获用户细粒度兴趣的能力。另一方面，RACP忽略了Item位次对用户点击行为的影响。最后，DCIN优于DCIN(Short)，因为它引入了更长的序列。

模型	AUC	RelaImpr
Wide&Deep	0.63588	0.00%
DeepFM	0.63602	0.10%
DIN	0.65012	10.48%
DIEN	0.65102	11.14%
DFN	0.65220	12.01%
RACP	0.65872	16.81%
DCIN(Short)	0.66186	19.12%
DCIN*	0.66475	21.24%
DCIN(short)-w/o postition	0.65850	16.64%
DCIN(short)-w/o FCFM	0.65950	17.38%

3.2.2 消融实验

我们还进行了消融测试，以验证DCIN中不同组件的有效性和必要性。首先，我们在PCAM中去除位次信息，并进行DCIN(short)-w/o postition的实验。如表1所示，DCIN(short)-w/o postition的表现比DCIN(Short)差，因为Item的位次对用户的点击行为也有重要影响。

其次，我们在DCIN中去除了FCFM模块，并进行了DCIN(short)-w/o FCFM的实验，其中我们直接将展示上下文 <math xmlns="http://www.w3.org/1998/Math/MathML"> v 𝑖 v_𝑖 </math>vi视为用户的兴趣，可以公式化为 <math xmlns="http://www.w3.org/1998/Math/MathML"> I 𝑖 = v 𝑖 I_𝑖 = v_𝑖 </math>Ii=vi而不是 <math xmlns="http://www.w3.org/1998/Math/MathML"> I 𝑖 = f 𝑖 2 I_𝑖 = f^2_𝑖 </math>Ii=fi2。如表1所示，由于缺乏点击和展示上下文之间的融合，DCIN(short)-w/o FCFM的表现也比DCIN(Short)差。

3.2.3 线上A/B测试

我们进行了严格的在线A/B测试，在线上对DCIN进行了两周的评估。与DIN（线上基线）相比，DCIN实现了CTR+1.5%、RPM+1.5%的提升。目前，DCIN已经在线部署并全量，显著提升了广告收入。

3.2.4 Case研究

为了展示DCIN在上下文感知兴趣表示方面的有效性，我们随机选择10个点击Item，并分别为每个点击选择100个不同的展示上下文。然后我们提取相应的上下文感知兴趣 <math xmlns="http://www.w3.org/1998/Math/MathML"> I i I_i </math>Ii，并通过t-SNE ^[14]可视化它们的分布。如图3所示，点击Item之间的明显分离表明了学习中点击行为的主导地位。同一点击的不同上下文的明显多样性证明了DCIN捕获细粒度上下文感知兴趣表示的能力。

为了验证上下文建模的有效性，我们可视化了目标Item和在不同展示上下文下的同一点击Item之间的IMM的注意力权重。如图4所示，DIN（绿色）的权重是相同的，因为DIN只将点击行为作为输入，所以它无法区分不同的显示上下文。而DCIN可以根据不同的上下文学习到不同的权重，右图展示的Item之间的竞争更激烈，其上下文反映的用户兴趣更精确，因此DCIN学习到了更高的权重。

4. 结论

我们强调了展示上下文和位次信息对兴趣建模的必要性，并创新性地设计了序列模型DCIN。无论是在离线还是在线评估中，DCIN都取得了显著的效果提升。目前，DCIN已经在美团的在线广告系统中部署并全量，取得了很好的业务结果。

5. 参考文献

$1\] Zhi Bian, Shaojun Zhou, Hao Fu, Qihong Yang, Zhenqi Sun, Junjie Tang, Guiquan Liu, Kaikui Liu, and Xiaolong Li. 2021. Denoising User-aware Memory Network for Recommendation. In Fifteenth ACM Conference on Recommender Systems. 400--410.$
$3\] Qiwei Chen, Huan Zhao, Wei Li, Pipei Huang, and Wenwu Ou. 2019. Behavior sequence transformer for e-commerce recommendation in alibaba. In Proceedings of the 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data. 1--4.$
$5\] Paul Covington, Jay Adams, and Emre Sargin. 2016. Deep neural networks for youtube recommendations. In Proceedings of the 10th ACM conference on recommender systems. 191--198.$
$7\] Yufei Feng, Fuyu Lv,Weichen Shen, MenghanWang, Fei Sun, Yu Zhu, and Keping Yang. 2019. Deep session interest network for click-through rate prediction. arXiv preprint arXiv:1905.06482 (2019).$
$9\] Huifeng Guo, Jinkai Yu, Qing Liu, Ruiming Tang, and Yuzhou Zhang. 2019. PAL: a position-bias aware learning framework for CTR prediction in live recommender systems. In Proceedings of the 13th ACM Conference on Recommender Systems. 452--456.$
$11\] Jing Li, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Tao Lian, and Jun Ma. 2017. Neural attentive session-based recommendation. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. 1419--1428.$
$13\] Qi Pi, Weijie Bian, Guorui Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Practice on long sequential user behavior modeling for click-through rate prediction. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery \& Data Mining. 2671--2679.$
$15\] MenghanWang, Mingming Gong, Xiaolin Zheng, and Kun Zhang. 2018. Modeling dynamic missingness of implicit feedback for recommendation. Advances in neural information processing systems 31 (2018).$
$17\] Ruobing Xie, Cheng Ling, Yalong Wang, Rui Wang, Feng Xia, and Leyu Lin. 2021. Deep feedback network for recommendation. In Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence. 2519--2525.$
$19\] Ling Yan, Wu-Jun Li, Gui-Rong Xue, and Dingyi Han. 2014. Coupled group lasso for web-scale ctr prediction in display advertising. In International Conference on Machine Learning. PMLR, 802--810.$
$21\] Guorui Zhou, Na Mou, Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep interest evolution network for click-through rate prediction. In Proceedings of the AAAI conference on artificial intelligence, Vol. 33. 5941--5948.$

| 在美团公众号菜单栏对话框回复【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容，敬请注明"内容转载自美团技术团队"。本文未经许可，不得进行商业性转载或者使用。任何商用行为，请发送邮件至tech@meituan.com申请授权。