《Deep Interest Evolution Network for Click-Through Rate Prediction》翻译

摘要

点击率（CTR）的预测，其目标是估计用户点击项目的概率，已经成为广告系统的核心任务之一。对于点击率预测模型，有必要捕捉用户行为数据背后的潜在用户兴趣。此外，考虑到外部环境和内部认知的变化，用户的兴趣会随着时间的推移而动态变化。目前有几种针对兴趣建模的CTR预测方法，而其中大部分都是直接将行为的表示作为兴趣，缺乏对具体行为背后的潜在兴趣的专门建模。此外，很少有工作考虑到兴趣的变化趋势。在本文中，我们提出了一个新的模型，名为深度兴趣进化网络（DIEN），用于CTR预测。具体来说，我们设计了兴趣提取层，从历史行为序列中捕捉时间上的兴趣。在这一层，我们引入了一个辅助损失来监督每一步的兴趣提取。由于用户的兴趣是多样的，尤其是在电子商务系统中，我们提出了兴趣演化层来捕捉与目标项目相关的兴趣演化过程。在兴趣演化层，注意力机制被新颖地嵌入到顺序结构中，在兴趣演化过程中，相对兴趣的影响被加强。在公共和工业数据集的实验中，DIEN明显优于最先进的解决方案。值得注意的是，DIEN已经被部署在淘宝网的展示广告系统中，并在CTR领域获得了20.7%的改善。

引言

每次点击成本（CPC）计费是广告系统中最常见的计费形式之一，广告主对其广告的每一次点击都要收费。在CPC广告系统中，点击率（CTR）预测的表现不仅影响到整个平台的最终收益，而且还影响到用户体验和满意度。建模预测CTR已经引起了学术界和工业界越来越多的关注。

在大多数非搜索的电子商务场景中，用户不会主动表达他们当前的意图。设计模型来捕捉用户的兴趣以及他们的动态是提高CTR预测性能的关键。最近，许多CTR模型从传统方法学（Friedman 2001；Rendle 2010）转变为深度CTR模型（Guo等人，2017；Qu等人，2016；Lian等人，2018）。大多数深度CTR模型专注于捕捉来自不同领域的特征之间的交叉，较少关注用户兴趣的表达。深度兴趣网络（DIN）（Zhouet al. 2018c）强调用户兴趣是多样化的，它使用基于注意力的模型来捕捉对目标项目的相对兴趣，并获得自适应的兴趣表示。然而，包括DIN在内的大多数兴趣模型都将行为直接视为兴趣，而潜在的兴趣很难被显性行为完全反映。以前的方法忽略了挖掘行为背后真正的用户兴趣。此外，用户的兴趣是不断变化的，捕捉兴趣的动态变化对兴趣的表达非常重要。

基于以上观察，我们提出了深度兴趣进化网络（DIEN）来提高CTR预测的性能。 DIEN有两个关键模块，一个是从明确的用户行为中提取潜在的时间性兴趣，另一个是对兴趣演化过程进行建模。正确的兴趣表示是兴趣演化模型的基石。在兴趣提取层，DIEN选择了GRU（Chung等人，2014）来模拟行为之间的依赖性。遵循兴趣直接导致连续行为的原则，我们提出了辅助损失，使用下一个行为来监督当前隐藏状态的学习。我们把这些有额外监督的隐藏状态称为兴趣状态。这些额外的超视距信息有助于捕捉更多的语义来表示兴趣，推动GRU的隐藏状态有效地表示兴趣。此外，用户的兴趣是多样化的，这导致了兴趣漂移现象：用户的意图在相邻的访问中可能非常不同，一个用户的行为可能取决于很久以前的行为。同时，一个用户对不同目标项目的点击行为是由不同的兴趣部分影响的。在兴趣演化层，我们对相对于目标项目的兴趣演化轨迹进行建模。基于从兴趣提取层得到的兴趣序列，我们设计了带有注意力更新门的GRU（AUGRU）。利用兴趣状态和目标项目来计算相关性，AUGRU加强了相对兴趣对兴趣演化的影响，同时削弱了非相对兴趣对兴趣漂移的影响。随着注意力机制引入更新门，AUGRU可以导致不同目标项目的特定兴趣演化过程。DIEN的主要贡献有以下几点：

我们关注电子商务系统中的兴趣演变现象，并提出了一种新的网络结构来模拟兴趣演变过程。兴趣演化模型带来了更具表现力的兴趣表现和更精确的CTR预测。
与直接将行为作为兴趣不同，我们特别设计了兴趣提取层。针对GRU的隐藏状态对兴趣表示的针对性不强的问题，我们提出了一个辅助损失。辅助损失使用连续的行为来监督每一步的隐藏状态的学习，这使得隐藏状态的表现力足以代表潜在的兴趣。
我们新颖地设计了兴趣进化层，其中GPU与注意力更新门（AUGRU）加强了从相关兴趣到目标项目的效果，并克服了兴趣漂移的推断。

在公共和工业数据集的实验中，DIEN的表现明显优于最先进的解决方案。值得注意的是，DIEN已经被部署在淘宝网的展示广告系统中，并在各种指标下获得了明显的改善。

Deep Interest Evolution Network

在本节中，我们将详细介绍深度兴趣进化网络（DIEN）。首先，我们回顾了基本的深度CTR模型，名为BaseModel。然后，我们展示了DIEN的整体结构，并介绍了用于捕捉兴趣和对兴趣演变过程进行建模的技术。

对BaseModel的回顾

以下从特征表示、模型结构和损失函数等方面介绍了BaseModel。

Feature Representation 在我们的在线展示系统中，我们使用四类特征。用户资料、用户行为、广告和交互上下文。值得注意的是，广告也是一个项目。在本文中，为了生成，我们把广告称为目标项目。每一类特征都有几个字段，用户资料的字段是性别、年龄等；用户行为的字段是用户访问过的商品id列表；Ad的字段是广告id、商店id等；交互上下文的字段是时间等。每个字段的特征都可以被编码为onehot向量，例如，用户资料类别中的女性特征被编码为[0, 1]。来自用户资料、用户行为、广告和上下文的不同字段的onehot向量的连接分别形成 $X_p$ 、 $X_b$ 、 $X_a$ 、 $X_c$ 。在顺序点击率模型中，值得注意的是，每个字段包含一个行为列表，每个行为对应一个onehot向量，可以用 $X_b = [b_1;b_2;\cdots;b_T ] ∈ \mathbb{R}^{K×T} ,b_t∈ \{0, 1\}^K$ ，其中 $b_t$ 被编码为onehot向量，代表第 $t$ 个行为， $T$ 是用户历史行为的数量， $K$ 是用户可点击的商品总数。

The Structure of BaseModel 大多数深度CTR模型都是建立在嵌入&MLR的基本结构上。该基本结构由几个部分组成：

Embedding 嵌入是将大尺度稀疏特征转换为低维密集特征的常用操作。在嵌入层中，每个字段的特征都对应一个嵌入矩阵，例如，受访商品的嵌入矩阵可以用 $E_{goods} = [m_1;m_2;\cdots;m_K] ∈\mathbb{R}^{n_E ×K}$ 来表示，其中 $m_j∈\mathbb{R}^{n_E}$ 代表一个维度为 $n_E$ 的嵌入向量。特别是，对于行为特征 $b_t$ ，如果 $b_{t [j_t ]}=1$ ，那么它对应的嵌入向量就是 $m_{jt}$ ，一个用户的行为的有序嵌入向量列表可以用 $e_b = [m_{j1} ; m_{j2} ;\cdots, m_{jT} ]$ 表示。类似地， $e_a$ 表示广告类别中字段的连接嵌入向量。
Multilayer Perceptron (MLP) 首先，来自一个类别的嵌入向量被送入池化操作。然后，所有这些来自不同类别的池化向量被连接起来。最后，合并的向量被送入以下MLP进行最终预测。

Loss Function 在深度CTR模型中广泛使用的损失函数是负对数似然函数，它使用目标项目的标签来监督整体预测。

其中， $X = [X_p,X_a,X_c,X_b] ∈\mathcal{D}$ ， $\mathcal{D}$ 是大小为 $N$ 的训练集。 $y∈{0, 1}$ 代表用户是否点击目标物品。

Deep Interest Evolution Network

与自主搜索不同的是，在许多电子商务平台上，如在线展示广告，用户并不清楚他们的意图，因此捕捉用户的兴趣和他们的动态对于预测CTR非常重要。DIEN致力于捕捉用户兴趣，并对兴趣的演变过程进行建模。如图1所示，DIEN由几个部分组成。首先，所有类别的特征通过嵌入层进行转换。接下来，DIEN采取两个步骤来捕捉兴趣的演变：兴趣提取层基于行为序列提取兴趣序列；兴趣演变层模拟与目标项目有关的兴趣演变过程。然后，最终兴趣的表示和广告、用户资料、上下文的嵌入向量被连接起来。连接的向量被送入MLP进行最终预测。在本节的其余部分，我们将详细介绍DIEN的两个核心模块。

Interest Extractor Layer 在电子商务系统中，用户行为是潜在兴趣的载体，而兴趣会在用户采取一种行为后发生变化。在兴趣提取器层，我们从连续的用户行为中提取一系列的兴趣状态。

在电子商务系统中，用户的点击行为非常丰富，即使在很短的时间内，比如两周，历史行为序列的长度也很长。为了平衡效率和性能，我们采用GRU来模拟行为之间的依赖关系，GRU的输入是按行为发生时间排序的行为。GRU克服了RNN的梯度消失问题，并且比LSTM更快（Hochreiter和Schmidhuber 1997），适合于电子商务系统。GRU的公式如下：

其中， $σ$ 是sigmoid激活函数， $◦$ 是对应元素逐个相乘， $W^u,W^r,W^h∈\mathbb{R}^{n_H×n_I}$ ， $U^z,U^r,U^h∈n_H×n_H$ ， $n_H$ 是隐藏大小， $n_I$ 是输入大小。它是GRU的输入， $i_t=e_b[t]$ 代表用户采取的第 $t$ 种行为， $h_t$ 是第 $t$ 种隐藏状态。

然而，隐藏状态 $h_t$ 只捕捉了行为之间的依赖性，不能有效地表示兴趣。由于目标项目的点击行为是由最终兴趣触发的， $L_{target}$ 中使用的标签只包含监督最终兴趣预测的基础事实，而历史状态 $h_t（t < T）$ 不能获得适当的监督。我们都知道，每一步的兴趣状态会直接导致连续行为。因此，我们提出了辅助损失，它使用行为 $b_{t+1}$ 来监督兴趣状态 $h_t$ 的学习。除了使用真实的下一个行为作为正样本，我们还使用负样本，即从除了被点击的项目以外的项目集中取样。有 $N$ 对行为嵌入序列。 $\{e^i_b, e^i_b\}∈\mathcal{D}_B, i∈1, 2,\cdots, N$ ，其中
$e^i_b∈\mathbb{R}^{T×n_E}$ 代表被点击的行为序列，而 $e^i_b∈\mathbb{R}^{T×n_E}$ 代表负样本序列。 $T$ 是历史行为的数量， $n_E$ 是嵌入的维度， $\hat e^i_b[t]∈\mathcal G$ 代表第 $t$ 个项目的嵌入向量， $eˆi_b[t]∈\mathcal G-e^i_b[t]$ 代表除用户 $i$ 在第 $t$ 步点击的项目外，从项目集中采样的项目的嵌入。辅助损失可以表述为：

$\sigma(X_1,X_2)=\frac{1}{1+exp(-[X_1,X_2])}$ 是sigmoid激活函数函数， $h^i_t$ 代表用户 $i$ 的GRU的第 $t$ 个隐藏状态。我们在CTR模型中使用的全局损失是：

其中α是平衡兴趣表现和CTR预测的超参数。

在辅助损失的帮助下，每个隐藏状态 $h_t$ 都有足够的表现力来代表用户采取行为 $i_t$ 后的兴趣状态。所有 $T$ 个兴趣点 $[h_1, h_2, \cdots, h_T]$ 的连接构成了兴趣演化层可以建立兴趣演化模型的兴趣序列。

总的来说，辅助损失的引入有几个好处：从兴趣学习的角度来看，辅助损失的引入有助于GRU的每个隐藏状态表达兴趣。就GRU的优化而言，当GRU对长历史行为序列进行建模时，辅助损失降低了反向传播的难度。最后但同样重要的，辅助损失为嵌入层的学习提供了更多的语义信息，这可以输出更好的嵌入矩阵。

Interest Evolving Layer 在外部环境和内部认知的共同影响下，不同类型的用户兴趣随着时间的推移而不断变化。以对衣服的兴趣为例，随着人口趋势和用户口味的变化，用户对衣服的偏好也在不断变化。用户对衣服兴趣的演变过程将直接决定候选衣服的CTR预测。对演化过程进行建模的优势如下：

兴趣演变模块可以为最终兴趣的表示提供更多的相对历史信息。
通过跟踪兴趣演变趋势来预测目标项目的点击率是更好的。

值得注意的是，兴趣在演变过程中表现出两个特点：

由于兴趣的多样性，兴趣可以漂移。兴趣漂移对行为的影响是，用户可能在某一时期对某种书籍感兴趣，而在另一时期需要衣服。
虽然兴趣可能会相互影响，但每个兴趣都有自己的演变过程，例如，书籍和衣服的演变过程几乎是单独的。我们只关注与目标项目相关的演化过程。

在第一阶段，在辅助损失的帮助下，我们得到了兴趣序列的表达式。通过分析兴趣演化的特点，我们将注意力机制的局部激活能力和GRU的顺序学习能力结合起来，建立兴趣演化模型。GRU每一步的局部激活可以强化相对兴趣的作用，并削弱兴趣漂移的干扰，这有助于建立与目标项目相关的兴趣演化过程的模型。

与公式（2-5）中的表述类似，我们用 $i^{'}_t$ 、 $h^{'}_t$ 来表示兴趣演化模块中的输入和隐藏状态，其中第二个GRU的输入是兴趣提取层的对应兴趣状态： $i^{'}_t=h_t$ 。最后的隐藏状态 $h^{'}_T$ 代表最终的兴趣状态。

而我们在兴趣演化模块中使用的注意函数可以表述为：

其中 $e_a$ 是广告类别中字段的嵌入向量的并集， $W∈\mathbb{R}^{n_H×n_A}$ ， $n_H$ 是隐藏状态的维度， $n_A$ 是广告嵌入向量的维度。注意力得分可以反映出广告 $e_a$ 和输入 $h_t$ 之间的关系，强关联性会导致大的注意力得分。

接下来，我们将介绍几种结合注意力和GRU机制的方法来模拟兴趣的演变过程。

GRU with attentional input (AIGRU) 为了在兴趣演化过程中激活相对兴趣，我们提出了一种朴素的方法，名为带注意力输入的GRU（AIGRU）。AIGRU使用注意力分数来影响兴趣演化层的输入。如公式所示：

其中， $h_t$ 是兴趣提取层GRU的第 $t$ 个隐藏状态， $i^{'}_t$ 是第二个GRU的输入，用于兴趣演化， $∗$ 表示标量-向量乘积。在AIGRU中，可以通过关注分值来降低相关度较低的兴趣的尺度。理想情况下，较不相关的兴趣的输入值可以减少到零。然而，AIGRU的效果不是很好。因为即使是零的输入也会改变GRU的隐藏状态，所以较少相关的兴趣也会影响到兴趣演化的学习。
Attention based GRU(AGRU) 在问题回答领域（Xiong, Merity, and Socher 2016），首先提出了基于注意力的GRU（AGRU）。在通过嵌入注意力机制的信息来修改GRU架构后，AGRU可以有效地提取复杂查询中的关键信息。受问题回答系统的启发，我们将AGRU的使用从提取查询中的关键信息转移到在兴趣演化过程中捕获相对兴趣上。具体来说，AGRU使用注意力分数来代替GRU的更新门，并直接改变隐藏状态。从形式上看：

其中 $h^{'}_t$ 、 $h^{'}_{t-1}$ 和 $\tilde h^{'}_t$ 是AGRU的隐藏状态。
在兴趣演化的场景中，AGRU利用注意力得分来直接控制隐藏状态的更新。在兴趣演化过程中，AGRU弱化了来自不太相关的兴趣的影响。注意力嵌入到GRU中，提高了注意力机制的影响力，有助于AGRU克服AIGRU的缺陷。
GRU with attentional update gate (AUGRU) 虽然AGRU可以直接使用注意力分数来控制隐藏状态的更新，但是它用一个标量（注意力分数 $a_t$ ）来代替一个向量（更新门 $u_t$ ），这就忽略了不同维度之间的重要性差异。我们提出了带有注意力更新门的GRU（AUGRU），将注意力机制和GRU无缝结合：

其中 $ut$ 是AUGRU的原始更新门， $\tilde u^{'}_t$ 是我们为AUGRU设计的注意力更新门， $h^{'}_t$ ， $h^{'}_{t-1}$ 和 $\tilde h^{'}_t$ 是AUGRU的隐藏状态。

在AUGRU中，我们保留了更新门的原始维度信息，它决定了每个维度的重要性。基于这些差异化的信息，我们使用注意力分数 $a_t$ 来衡量更新门的所有维度，这样做的结果是较少的相关兴趣对隐藏状态的影响较小。AUGRU更有效地避免了兴趣漂移的干扰，推动了相对兴趣的平稳发展。

实验结果

在这一节中，我们将DIEN与公共和工业数据集上的技术现状进行了比较。此外，我们还设计了实验来验证辅助损失和AUGRU的效果。为了观察兴趣演变的过程，我们展示了兴趣隐藏状态的可视化结果。最后，我们分享了在线服务的结果和技术。

数据集

我们使用公共和工业数据集来验证DIEN的效果。所有数据集的统计数字都显示在表1中。

public Dataset 亚马逊数据集（McAuley等人，2015）是由亚马逊的产品评论和元数据组成。我们使用亚马逊数据集的两个子集。图书和电子产品，来验证DIEN的效果。在这些数据集中，我们将评论视为行为，并按时间对一个用户的评论进行排序。假设用户 $u$ 有 $T$ 个行为，我们的目的是使用 $T-1$ 个行为来预测用户 $u$ 是否将会写像第 $T$ 个评论的评论。

Industrial Dataset 工业数据集是由我们的在线展示广告系统的浏览和点击记录构建的。对于训练集，我们将过去49天内点击的广告作为目标项目。每个目标项目和其对应的点击行为构建一个实例。以一个目标项目a为例，我们把a被点击的那一天作为最后一天，把这个用户在之前14天的行为作为历史行为。同样地，测试集中的目标项目从接下来的一天中选择，其行为的建立与训练数据相同。

比较方法

我们将DIEN与一些主流的CTR预测方法进行比较：

BaseModel采取与DIEN相同的嵌入和MLR的设置，并使用和池操作来整合行为嵌入。
Wide&Deep (Chengetal.2016)Wide&Deep由两部分组成：其深度模型与Base Model相同，而其wide模型是一个线性模型。
PNN (Qu et al. 2016) PNN使用product层来捕捉领域间类别的互动规律。
DIN (Zhou et al. 2018c) DIN使用注意力的机制来激活相关的用户行为。
Two layer GRU Attention 与(Parsanaetal.2018)类似，我们使用两层GRU来模拟顺序行为，并采取注意层来激活相对行为。

公共数据集的结果

总的来说，如图1所示，DIEN的结构由GRU、AUGRU和辅助损失及其他正常组件组成。在公共数据库中。每个实验重复5次。

从表2中，我们可以发现Wide&Deep与手工设计的特征表现不佳，而特征间的自动交互（PNN）可以提高BaseModel的性能。同时，旨在捕捉兴趣的模型可以明显提高AUC。DIN激活了与广告相关的兴趣，两层GRU注意力进一步激活了兴趣序列中的相关兴趣，所有这些探索都获得了正反馈。DIEN不仅能更有效地捕捉序列兴趣，而且还能模拟与目标项目相关的兴趣演变过程。对兴趣演变的建模有助于DIEN获得更好的兴趣表示，并精确地捕捉兴趣的动态，这在很大程度上提高了性能。

工业数据集的结果

我们进一步在真实展示广告的数据集上进行了实验。在工业数据集中使用了6个FCN层，维度区域分别为600、400、300、200、80、2，历史行为的最大长度被设定为50。
如表3所示，Wide & Deep和PNN比BaseModel获得更好的性能。与亚马逊数据集中只有一类商品不同，网络广告数据集同时包含了所有种类的商品。基于这一特点，基于注意力的方法在很大程度上提高了性能，如DIN。DIEN捕捉到了与目标商品相对应的兴趣演变过程，并获得了最佳性能。

应用研究

在本节中，我们将分别展示AUGRU和辅助损失的影响。

Effect of GRU with attentional update gate (AUGRU) 表4显示了不同的兴趣演化方法的结果。与BaseMode相比，两层GRU注意力得到了改善，但缺乏对进化过程的建模限制了其能力。AIGRU采用了对进化过程进行建模的基本思想，尽管它有一些进步，即在兴趣进化过程中，注意力和进化的分割会丢失信息。AGRU进一步尝试融合注意力和进化，正如我们之前提出的，GRU中的注意力不能充分利用更新门的资源。AUGRU获得了明显的改进，这反映了它将注意力机制和顺序学习理想地融合在一起，并有效地捕捉了相对兴趣的演化过程。

Effect of auxiliary loss 基于用AUGRU得到的模型，我们进一步探讨了辅助损失的影响。在公共数据集中，辅助损失中使用的负样本是从项目集中随机抽出的，除了相应评论中显示的项目。对于工业数据集，在没有被点击的情况下显示的广告作为负样本。如图2所示，整体损失 $L$ 和辅助损失 $L\_aux$ 都保持类似的下降趋势，这意味着用于CTR预测的整体损失和用于兴趣表示的辅助损失都有效果。

如表4所示，辅助损失为两个公共数据集带来了很大的改善，它反映了监督信息对于学习顺序兴趣和嵌入表示的重要性。对于表3所示的工业数据集，带有辅助损失的模型进一步提高了性能。然而，我们可以看到，这种改进并不像公共数据集那样明显。这种差异来自于几个方面。首先，对于工业数据集，它有大量的实例来学习嵌入层，这使得它从辅助损失中获得的收益较少。第二，与亚马逊数据集中一个类别的所有项目不同，工业数据集中的行为是来自我们平台上所有场景和所有类别的点击商品。我们的目标是预测一个场景中广告的点击率。来自辅助损失的监督信息可能与目标项目不一样，所以工业数据集的辅助损失对公共数据集的影响可能较小，而AUGRU的影响则被放大。

兴趣演变的可视化

AUGRU中隐藏状态的动态可以反映出兴趣的演化过程。在本节中，我们将这些隐藏状态可视化，以探索不同目标项目对兴趣演变的影响。
选择性的历史行为依次来自电脑音箱、耳机、车载GPS、SD&SDHC卡、Micro SD卡、外置硬盘、耳机、机箱等类别。AUGRU中的隐藏状态通过主成分分析（PCA）被投射到一个二维空间（Wold, Esbensen, and Geladi 1987）。投射的隐藏状态按顺序连接。图3(a)显示了被不同目标项目激活的隐藏状态的移动路线。黄色曲线是没有目标的，代表公式（12）中使用的注意分数是相等的，也就是说，感兴趣的演变不受目标项目的影响。蓝色曲线表示隐藏状态被屏幕保护器类别的物品激活，这与所有的历史行为关系不大，所以它显示了与黄色曲线类似的路线。红色曲线显示隐藏状态被案例类别中的项目激活，目标项目与最后一个行为有很强的关联，如图3(a)所示，它移动了很长的一步。相应地，最后一个行为获得了很大的注意力分数，如图3(b)所示。

在线服务与A/B测试

从2018-06-07到2018-07-12，在淘宝网的展示广告系统中进行了在线A/B测试。如表5所示，与BaseModel相比，DIEN的CTR提高了20.7%，每mile有效成本（eCPM）提高了17.1%。此外，DIEN还将每次点击付费率降低了3.0%。现在，DIEN已经部署在网上，并为主要业务流量提供服务，这为业务收入的增长做出了重大贡献。

值得注意的是，DIEN的在线服务对商业系统是一个巨大的挑战。在我们的显示广告系统中，在线系统拥有真正的高流量，在流量高峰期每秒服务超过100万用户。为了保持低延迟和高吞吐量，我们部署了几个重要的技术来提高服务性能：i）元素并行GRU和内核融合（Wang, Lin, and Yi 2010），我们融合了尽可能多的独立内核。此外，GRU的隐藏状态的每个元素都可以并行计算。 ii) 批量：来自不同用户的相邻请求被合并为一个批次，以利用GPU的优势。 iii) 用Rocket Launching的模型压缩（Zhou等人，2018b）：我们使用（Zhou等人，2018b）提出的方法来训练一个轻型网络，它的尺寸较小，但性能接近更深、更复杂的网络。例如，在Rocket Launching的帮助下，GRU隐藏状态的维度可以从108压缩到32。在这些技术的帮助下，DIEN服务的延迟可以从38.2毫秒减少到6.6毫秒，每个woeker的QPS（每秒查询）能力可以提高到360。

结论

在本文中，我们提出了一种新的深度网络结构，即深度兴趣演化网络（DIEN），来模拟兴趣演化过程。DIEN在很大程度上改善了在线广告系统中CTR预测的性能。具体来说，我们设计了兴趣提取层来捕获兴趣序列，特别是使用辅助损失来提供具有更多监督的兴趣状态。然后，我们提出了兴趣演化层，DIEN使用带有注意力更新门（AUGRU）的GRU来模拟与目标项目有关的兴趣演化过程。在AUGRU的帮助下，DIEN可以克服兴趣漂移的干扰。对兴趣演变的建模有助于我们有效地捕捉兴趣，从而进一步提高CTR预测的性能。在未来，我们将尝试为CTR预测构建一个更加个性化的兴趣模型。

引用

[Cheng et al. 2016] Cheng, H.-T.; Koc, L.; Harmsen, J.; Shaked, T.; Chandra, T.; Aradhye, H.; Anderson, G.; Cor- rado, G.; Chai, W.; Ispir, M.; et al. 2016. Wide & deep learning for recommender systems. In Proceedings of the 1st Workshop on Deep Learning for Recommender Systems, 7–10. ACM.
[Chung et al. 2014] Chung, J.; Gulcehre, C.; Cho, K.; and Bengio, Y. 2014. Empirical evaluation of gated recur- rent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555.
[Friedman 2001] Friedman, J. H. 2001. Greedy function ap- proximation: a gradient boosting machine. Annals of statis- tics 1189–1232.
[Guo et al. 2017] Guo, H.; Tang, R.; Ye, Y.; Li, Z.; and He, X. 2017. Deepfm: a factorization-machine based neural network for ctr prediction. In Proceedings of the 26th Inter- national Joint Conference on Artificial Intelligence, 2782– 2788.
[He and McAuley 2016] He, R., and McAuley, J. 2016. Ups and downs: Modeling the visual evolution of fashion trends with one-class collaborative filtering. In Proceedings of the 25th international conference on world wide web, 507–517.
[Hidasi and Karatzoglou 2017] Hidasi, B., and Karatzoglou, A. 2017. Recurrent neural networks with top-k gains for session-based recommendations. arXiv preprint arXiv:1706.03847.
[Hochreiter and Schmidhuber 1997] Hochreiter, S., and Schmidhuber, J. 1997. Long short-term memory. Neural computation 9(8):1735–1780.
[Lian et al. 2018] Lian, J.; Zhou, X.; Zhang, F.; Chen, Z.; Xie, X.; and Sun, G. 2018. xdeepfm: Combining explicit and implicit feature interactions for recommender systems. In Proceedings of the 24th ACM SIGKDD International Con- ference on Knowledge Discovery & Data Mining.
[McAuley et al. 2015] McAuley, J.; Targett, C.; Shi, Q.; and Van Den Hengel, A. 2015. Image-based recommendations on styles and substitutes. In Proceedings of the 38th Inter- national ACM SIGIR Conference on Research and Develop- ment in Information Retrieval, 43–52. ACM.

[Parsana et al. 2018] Parsana, M.; Poola, K.; Wang, Y.; and Wang, Z. 2018. Improving native ads ctr prediction by large scale event embedding and recurrent networks. arXiv preprint arXiv:1804.09133.

[Qu et al. 2016] Qu, Y.; Cai, H.; Ren, K.; Zhang, W.; Yu, Y.; Wen, Y.; and Wang, J. 2016. Product-based neural networks for user response prediction. In Proceedings of the16th In- ternational Conference on Data Mining, 1149–1154. IEEE.

[Ren et al. 2018] Ren, K.; Fang, Y.; Zhang, W.; Liu, S.; Li, J.; Zhang, Y.; Yu, Y.; and Wang, J. 2018. Learning multi- touch conversion attribution with dual-attention mechanisms for online advertising. arXiv preprint arXiv:1808.03737.

[Rendle et al. 2009] Rendle, S.; Freudenthaler, C.; Gantner, Z.; and Schmidt-Thieme, L. 2009. Bpr: Bayesian person- alized ranking from implicit feedback. In Proceedings of the twenty-fifth conference on uncertainty in artificial intel- ligence, 452–461. AUAI Press.

[Rendle 2010] Rendle, S. 2010. Factorization machines. In

Proceedings of the 10th International Conference on Data Mining, 995–1000. IEEE.

[Song, Elkahky, and He 2016] Song, Y.; Elkahky, A. M.; and He, X. 2016. Multi-rate deep learning for temporal recom- mendation. In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Infor- mation Retrieval, 909–912. ACM.

[Wang, Lin, and Yi 2010] Wang, G.; Lin, Y.; and Yi, W. 2010. Kernel fusion: An effective method for better power efficiency on multithreaded gpu. In Proceedings of the 2010 IEEE/ACM Int’L Conference on Green Computing and Communications & Int’L Conference on Cyber, Physical and Social Computing, 344–350.

[Wold, Esbensen, and Geladi 1987] Wold, S.; Esbensen, K.; and Geladi, P. 1987. Principal component analysis. Chemo- metrics and intelligent laboratory systems 2(1-3):37–52.

[Xiong, Merity, and Socher 2016] Xiong, C.; Merity, S.; and Socher, R. 2016. Dynamic memory networks for visual and textual question answering. In Proceedings of the 33rd In- ternational Conference on International Conference on Ma- chine Learning, 2397–2406.

[Yu et al. 2016] Yu, F.; Liu, Q.; Wu, S.; Wang, L.; and Tan, T. 2016. A dynamic recurrent model for next basket recom- mendation. In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Infor- mation Retrieval, 729–732. ACM.

[Zhang et al. 2014] Zhang, Y.; Dai, H.; Xu, C.; Feng, J.; Wang, T.; Bian, J.; Wang, B.; and Liu, T.-Y. 2014. Se- quential click prediction for sponsored search with recurrent neural networks. In Proceedings of the 28th AAAI Confer- ence on Artificial Intelligence, 1369–1375.

[Zhou et al. 2018a] Zhou, C.; Bai, J.; Song, J.; Liu, X.; Zhao, Z.; Chen, X.; and Gao, J. 2018a. Atrank: An attention-based user behavior modeling framework for recommendation. In Proceedings of the 32nd AAAI Conference on Artificial In- telligence.

[Zhou et al. 2018b] Zhou, G.; Fan, Y.; Cui, R.; Bian, W.; Zhu, X.; and Gai, K. 2018b. Rocket launching: A universaland efficient framework for training well-performing light net. In Proceedings of the 32nd AAAI Conference on Artifi- cial Intelligence.

[Zhou et al. 2018c] Zhou, G.; Zhu, X.; Song, C.; Fan, Y.; Zhu, H.; Ma, X.; Yan, Y.; Jin, J.; Li, H.; and Gai, K. 2018c. Deep interest network for click-through rate prediction. In Proceedings of the 24th ACM SIGKDD International Con- ference on Knowledge Discovery & Data Mining, 1059– 1068. ACM.

Just For Fun

《Deep Interest Evolution Network for Click-Through Rate Prediction》翻译

摘要

引言

相关工作

Deep Interest Evolution Network

对BaseModel的回顾

Deep Interest Evolution Network

实验结果

数据集

比较方法

公共数据集的结果

工业数据集的结果

应用研究

兴趣演变的可视化

在线服务与A/B测试

结论

引用

《End-to-End Multi-Task Learning with Attention》翻译

宿舍一角

生蚝Babe

Comments | NOTHING

Cancel Reply

Just For Fun