"本期技术干货，我们邀请到了小米工程师潘康、矫红岩、朴泰任、于承鑫、孙立顺、张霄，和大家分享CTR预估技术在小米海外广告的探索与应用。一、业务背景近些年，随着小米集团海外市场的稳步拓展，其海外广告业务也呈现出快速增长的态势。依托于小米终端，广告触达用户有着天然的优势。优秀的小米产品能更好地了解 ...."

Fork me on GitHub

alg
本助手集算力、智能于一身，为您提供最精彩全面的人工智能技术资讯
小米算法 • 0 回帖 • 932 浏览 • 1 年前

干货 | CTR 预估技术在小米海外广告的探索与应用

本期技术干货，我们邀请到了 小米工程师潘康、矫红岩、朴泰任、于承鑫、孙立顺、张霄 ，和大家分享CTR预估技术在小米海外广告的探索与应用。

一、业务背景

近些年，随着小米集团海外市场的稳步拓展，其海外广告业务也呈现出快速增长的态势。依托于小米终端，广告触达用户有着天然的优势。优秀的小米产品能更好地了解到广告主所关心的商品/应用点击转化、品牌好感度等这些指标，从而给广告主带来个性化、精细化的服务与体验。

小米海外广告样式多种多样，包括开屏、插屏、banner（横幅）、native（信息/视频广告）、激励广告、互动广告、icon（图标）等。现今，小米海外广告产品已覆盖西欧、东南亚、拉美、南亚以及中东欧等区域的200多个市场，包括桌面文件夹、应用商店、浏览器、桌面主题、下载管理器等多达50多个业务场景。随着深度学习的快速发展，点击率（Click Through Rate, CTR）/转化率（Conversion Rate, CVR）的预估技术成为了推荐及广告系统中重要研究方向之一。小米海外广告也通过应用深度模型，不断提升广告平台收入，同时更好地帮助广告主达成核心指标的考核。

二、问题与挑战

icon广告是一种常见广告形式，因其表现样式为图标，又称图标广告，通常广告主用它来宣传商标或品牌等特定标志。在小米海外广告中，icon形式的广告场景非常多，包括应用商店、浏览器、下载管理器等都有这类广告的存在，本文也将主要针对icon广告进行建模及优化。

icon广告由于缺乏素材与内容，用户往往不知道对应APP的具体用途，并且很难通过比较素材的差异性来学习用户的兴趣和偏好。兴趣表达最直接的方式就是用户的行为，通常会建模用户的长期兴趣和短期兴趣，区别在于用户的行为周期不同。

用户兴趣建模本质是用户的行为序列建模。行为序列包括点击序列、启动序列、下载序列、安装序列等，同时这些序列又可以按照APP的类目进行细分。在icon广告中，应用商店、负一屏、桌面文件夹等诸多场景，会使得不同用户的行为习惯不尽相同。即使是同一用户，在每种场景下表现出的心性也有所差异，从而导致同一广告在不同场景下的展现频次、下载率、安装率等均有较大的差别。

因此，icon广告中用户兴趣建模存在着如下挑战：

如何建模同一场景下用户多行为的个性化；
如何在多个场景下建模用户行为的共性和差异 ；

针对上述问题特点，我们经过逐层分解，通过对比学习的方法建模用户的长期和短期兴趣来让模型学到行为间的共性和差异。后文会针对这些技术依次进行展开，希望这些思考和实践经验能对大家有所帮助或是启发。

三、CTR预估技术探索

随着深度学习的普及，CTR预估技术也迎来了一些重要突破。与传统的机器学习方法相比，深度模型逐渐往“记忆性”+“泛化性”发展。近些年来，高阶及低阶特征交叉、用户兴趣建模、多任务建模以及多场景建模的方案层出不穷。同时，一些样本增强、小样本学习的新兴理论也越来越受到人们关注，例如对比学习、迁移学习、元学习等。关于特征交叉的模型诸如wide&deep、FM、deepfm等已被大家深度熟知，因此本文只对用户兴趣建模、多任务建模、多场景建模以及对比学习进行介绍，帮助大家梳理CTR模型的发展脉络。

用户兴趣建模

在CTR模型中通常有user、item、上下文和用户行为四类特征。而能够精准刻画用户个性化的特征要数用户行为特征了，它代表了用户的不同兴趣，因此用户行为建模也被称作用户兴趣建模。常见的兴趣的表达单元通过Pooling、Attention、Gru、Transformor的结构进行兴趣的抽取与聚合，主要代表工作有DIN[1]、DIEN[2]、DSIN[3]和BST[4]等。此外，行为序列建模计算复杂度通常较高，像DIN、DIEN等往往只能应用于用户实时行为序列的建模中（通常序列长度在100左右）。那么，如何对超长的用户行为序列甚至是终身行为序列进行建模呢？阿里妈妈广告算法团队于2019年提出了MIMN[5]模型，用于解决超长行为序列的建模和在线预估问题。但由于MIMN将用户兴趣压缩到固定维度的向量存在较多的信息损失和噪声，对于超长行为序列这个问题会更加严重，后续又提出了SIM[6]来解决这些问题。

多任务建模

多任务建模在当前工业届的广告、推荐等场景业务中应用非常广泛。例如在广告场景中，我们希望广告的点击率和转化率都要高，如果只单纯集中于某一个目标的优化，往往会导致其它被忽略的任务效果变差。多任务模型可以建模目标之间共同的表征，优化多个任务的目标，从而改善多个任务的预测效果。

早在上世纪90年代，Shared-Bottom Model[7]被提出。Shared-Bottom Model的结构如图1(a)所示，多个任务共享其底部的隐藏层从而降低了过拟合的风险。但由于所有任务都需要共享底层的参数，因此可能存在任务差异引起的优化冲突。同时期Hinton等人提出了MoE（Mixture-of-Experts）[8]模块，如图1(b)所示。MoE在训练和推理时会根据一个gate来选择对应的expert。该模型不仅在多任务建模上更强大，而且通过gate机制降低了计算成本。随着基于深度学习的广告推荐算法的流行，为了解决多任务模型效果不佳的问题，Google提出MMoE[9]模型，结构如图1(c)所示。MMoE基于MoE在每一个tower都设置了一个gate，同时对于不同的任务可以使用更多的expert，从而动态捕捉共享和特定任务的信息。

图1 Shared-Bottom Model、MoE、MMoE模型

MMoE后，又有CGC[10]、ESMM[11]等多种模型被提出。CGC在MMoE的基础上进行了改进，MMoE中全部任务共享所有的experts，这使得模型无法捕捉到任务之间更加复杂的关系，并且experts之间缺少交互，只是在gate的作用下结合比例不同。CGC引入了一组共享experts，通过让不同的experts分别学习特定任务的信息，之后在通过共享experts来学习任务之间的公共信息。同时CGC对gate部分也有所改进，CGC不再对所有experts输出进行计算，而是任务对应的experts和共享experts的特征进行组合，从而达到task-specific的目标。在前面的多任务框架中，不同的tower对应的任务之间是没有交互的，可以认为任务之间仍然是独立的，即对应的损失函数就是每一个tower对应的损失函数之和。而ESMM则考虑了任务之间的关系，ESMM主要挖掘了CVR、CTR和CTCVR（点击后转化）之间的关系来建模多任务模型，提升整体效果，我们将在工程落地部分中详细介绍ESMM。

多场景建模

多场景建模是新兴的研究方向之一，它旨在提取不同场景间的共性和差异。一方面，不同的业务场景其user和item有交集，因此各业务场景存在共性，不同场景的信息共享有助于场景间的知识迁移，对于模型的学习是有益的。另一方面，不同场景具有用户差异，即使是同一用户，由于广告页面呈现的形式和内容、同一广告在不同场景下的展现频次等均有较大的差别，因此在不同场景下用户行为习惯也不同。

多场景和多任务之间有什么区别呢？如图2所示，多任务是解决相同场景/分布下的不同任务，而多场景建模则是解决不同场景/分布下的相同任务。

图2 多场景和多任务的区别

多场景建模中最具代表性的工作是阿里于2021年提出的星型拓扑结构Star[12]模型。该模型使用共享的FCN参数，和每个独立场景的参数进行element-wise相乘，得到最终的FCN参数，如下图3所示。

图3 多场景Star星型拓扑结构

实际业务中，单个场景的数据量往往有限，尤其是小业务场景，单独建模会增加模型的训练难度，长尾场景学习不充分，而简单共享模型难以建模场景差异性，因此多场景建模显得十分重要。

对比学习

对比学习是一种判别式自监督学习，目前主要应用于CV、NLP等领域。在小米海外广告的场景下，用户行为数据非常稀疏，并且数据分布极不均匀，是个典型的长尾分布，即真正被用户点过的行为数据item分布在极少数的item里面。对于长尾的数据，用现有的有监督方法，无论是对应行为的item特征，还是用户特征，训练出的embedding不可靠，因为频次太低，很难通过很多用户行为数据推导出可靠的embedding。而对比学习可以解决数据的长尾分布的问题。

对比学习的指导原则是：通过构造相似实例和不相似实例，训练一个表示学习模型，通过这个模型，使得相似的实例在投影空间中比较接近，而不相似的实例在投影空间中距离比较远。一般通过定义合适的损失函数来实现，通常使用Contrastive Loss，InfoNce，Triplet Loss等。

对比学习在广告、推荐领域具有代表性的工作是谷歌于2021年提出的自监督双塔[13]模型。该模型有两个任务，主任务为点击率预测，辅助任务是自监督的对比学习任务。辅助任务对item特征通过dropout和mask等方式进行数据增强，增强后的表示与原表示为相似实例，与训练数据一个batch内的其他表示不相似实例，通过InfoNce Loss拉近相似实例距离，推远不相似实例距离，从而学习到更好的item表示。

图4 自监督学习的双塔结构

四、工程实践

模型主架构

在小米海外广告CTR业务场景中，特征的丰富度很高，这使得我们在对不同特征进行建模时，能高效地挖掘出特征中的有用信息。我们上线的CTR模型其主要模块由特征交互模块DCN-V2[14]、对比学习模块CLSR、user-item交互模块MVKE[15]，以及多任务模块ESMM等构成。具体结构如图5所示，下面会对这些模块依次介绍。

图5 CTR模型架构

DCN-V2

项目初期，我们尝试了多种先进的CTR模型，在比较了它们之间的效果差异后，最终选择DCN-V2来做特征间的交叉。它的主要优势包括以下三点：

a）权重向量升级为权重矩阵，提高表示能力；

b）低秩矩阵进行分解，降低计算成本；

c）引入MoE，门控加权多个专家的结果，提升多层Cross特征抽取能力。

CLSR

在海外广告的曝光样本中，点击与不点击样本数量悬殊。为了缓解正负样本比例不均衡的问题，我们借鉴谷歌SSL模型，引入对比学习做辅助任务，通过InfoNEC Loss[16]，在item表征上，拉近相似item距离，最大化不相似item间的距离，公式为：

-N^{-1}\sum_{i}{log(\frac{exp(1/\tau)}{exp(1/\tau)+\sum_{j\neq i}{exp(s(z_i,z_j)/\tau)}}}

公式中N为每个batch内的样本数量，S为向量余弦相似度计算。此外，我们还使用对比学习建模了用户的长短期兴趣。长期兴趣受用户全生命周期、用户画像影响，相对稳定不变；短期兴趣受用户近期行为、Last 行为影响，随着时间动态变化，因此长短期兴趣适合分别建模。我们应用CLSR（Contrastive learning framework to disentangle Long and Short-term interests for Recommendation）[17]模型，将用户一个月内的行为作为长期兴趣，一天内的行为作为短期兴趣，通过Pooling及Attention操作得到四组向量，分别为UserLong（用户长期兴趣embedding），ProxyLong（长期兴趣平均embedding），UserShort（用户短期兴趣embedding），ProxyShort（短期兴趣平均embedding）。我们将这四组向量每三个为一组，借鉴度量学习（metric learning）相关的损失函数，最大化一个用户长期和短期兴趣的差异。例如UserLong，ProxyLong，和UserShort这三个表征计算损失函数时，UserLong和ProxyLong为相似表征，最小化两者距离，最大化UserLong和UserShort的距离。在实验中，我们分别尝试了BPR Loss和Triplet Loss，前者效果更好。最后，我们还增加了长短期自适应融合模块，通过GRU结构计算长短期的融合系数α，利用α*长期 +（1-α）*短期作为新的用户表示。

MVKE

小米海外广告场景中，user与item（即app）的交互特征是相当重要的。我们借鉴MVKE的思路单独对交互特征进行建模，MVKE主要结构如图6所示：

图6 MVKE模型架构

该模型设计了两个重要的结构单元：Virtual-Kernel Experts（VKE）和Virtual-Kernel Gate（VKG）。一个VKE对应用户一方面偏好，由相应的virtual kernel表示（可学习的变量）。VKG是注意力机制结构，根据不同的标签（adid）对virtual kernels计算注意力得分，组合VKE的输出得到最终用户表示。可以看出virtual kernel在MVKE中起了关键作用，它被用于VKE和VKG中，可以被视为连接user和app的桥梁。在某种意义上，virtual kernel学习了某个特定的用户偏好。在virtual kernel的作用下，user和app特征可以更好的进行交互。

ESMM

ESMM模型通过建模CTCVR的方式预估CVR并缓解样本选择有偏和样本稀疏的问题，我们受此启发并经过实验发现，使用多任务模型训练出的CTR模型效果优于单CTR任务模型，所以在我们的模型架构中使用ESMM多任务建模的方式训练，并最终取得CTR的输出。ESMM模型由两个子网络组成，主子网络用来拟合 pCVR，辅助子网络用来拟合 pCTR，同时，两个子网络的输出相乘之后可以得到 pCTCVR。因此，该网络结构共有三个子任务，分别用于输出 pCTR、pCVR 和 pCTCVR。假设用 x 表示曝光，y表示点击，z表示转化，那么根据 pCTCVR = pCTR * pCVR，可以得到如下公式：

\underbrace{p(y=1,z=1|x)}_{pCTCVR}=\underbrace{p(y=1|x)}_{pCTR}\times \underbrace{p(z=1|y=1,x)}_{pCVR}

通过这种算法使得CTCVR可以学到正确没有偏差的样本，有效的解决样本选择有偏的问题。

图7 ESMM模型架构

如上文所说，我们通过实验验证了多任务建模后的CTR效果优于单CTR建模的效果，我们的模型架构中使用ESMM多任务架构建模后进行学习，使模型学到了CVR和CTCVR的信息来辅助CTR任务的训练，最终选取输出的CTR。

五、总结

目前CTR预估技术在广告行业越来越重要。经过近半年的技术探索，我们不断优化小米海外广告的算法性能，并率先在印度桌面文件夹场景中将eCMP提升5%以上。未来，我们希望这些技术能落地到小米更多的业务与场景中，为小米成为一家伟大公司贡献绵薄之力。

参考文献

[1] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep Interest Network for Click-Through Rate Prediction.

[2] Zhou G, Mou N, Fan Y, et al. Deep interest evolution network for click-through rate prediction.

[3] Feng Y, Lv F, Shen W, et al. Deep session interest network for click-through rate prediction.

[4] Chen Q, Zhao H, Li W, et al. Behavior sequence transformer for e-commerce recommendation in alibaba.

[5] Pi Q, Bian W, Zhou G, et al. Practice on long sequential user behavior modeling for click-through rate prediction.

[6] Pi Q, Zhou G, Zhang Y, et al. Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction.

[7] Caruana R. A dozen tricks with multitask learning

[8] Jacobs R A, Jordan M I, Nowlan S J, et al. Adaptive mixtures of local experts

[9] Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts

[10] Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations

[11] Ma X, Zhao L, Huang G, et al. Entire space multi-task model: An effective approach for estimating post-click conversion rate

[12] Sheng X R, Zhao L, Zhou G, et al. One model to serve all: Star topology adaptive recommender for multi-domain ctr prediction.

[13] Yao T, Yi X, Cheng D Z, et al. Self-supervised learning for large-scale item recommendations.

[14] Zhenhui Xu, Meng Zhao, Liqun Liu, Lei Xiao, Xiaopeng Zhang, and Bifeng Zhang. 2022. Mixture of Virtual-Kernel Experts for Multi-Objective User Profile Modeling.

[15] Wang R, Shivanna R, Cheng D, et al. Dcn v2: Improved deep & cross network and practical lessons for web-scale learning to rank systems.

[16] Zheng Y, Gao C, Chang J, et al. Disentangling Long and Short-Term Interests for Recommendation.

本文地址：https://www.6aiq.com/article/1668689352788
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

干货 | CTR 预估技术在小米海外广告的探索与应用

一、业务背景

二、问题与挑战

三、CTR预估技术探索

用户兴趣建模

多任务建模

多场景建模

对比学习

四、工程实践

模型主架构

DCN-V2

CLSR

MVKE

ESMM

五、总结

参考文献

相关帖子

随便看看

干货 | CTR 预估技术在小米海外广告的探索与应用