腾讯(大禹投放平台)用户LTV建模技术研究和实践

导读本次分享题目为投放场景下的问题分析与用户价值预估。

主要包括以下三部分内容：

投放场景的问题分析
投放场景下用户价值建模实践
未来工作展望

分享嘉宾｜徐国强腾讯高级研究员

编辑整理｜river

内容校对｜李瑶

出品社区｜DataFun

01投放场景的问题分析

首先来剖析一下投放场景中的问题。

1. 用户价值在用户增长的作用

如何实现用户产品的增长，对于每个产品和业务来说都是非常重要的。早期比较经典的用户增长模型是 AARRR 模型，它强调的是通过获客快速抢占市场，但是随着用户流量红利逐渐消失，这种买量的方式越来越受到限制，所以大家逐渐转向了 RARRA 模型。RARRA 模型强调的是存量用户的激活和运营，在整个降本增效的大背景下，要去优化不同 stage 的 ROI，需要不断进行迭代和技术能力升级。

站在技术的视角，可以把增长模型分为两个技术阶段，分别是从外部获取新用户、持续激活新增和存量用户。这两个阶段的技术栈，本质上是根据用户状态进行展开的。上图的右上角的用户生命周期状态图，展示了对于不同状态用户进行分析和理解的用户模型。而用户价值建模，就是从用户价值的角度分析和理解用户的能力，它是非常底层的通用能力。在不同的业务增长环境当中，看清楚处于不同状态下的用户的价值，制定出合理的增长策略，才能实现增长的目标。

主要的应用场景包括：

投放获客场景：通过 CLTV 建模预估不同渠道 cohort 粒度的 CLTV，得到每个渠道投放的 ROI，调整出价策略和预算分配策略。
投放获客场景：通过 CLTV 建模得到⽤户粒度的 CLTV，在投放过程中对媒体流量进⾏筛选，提升买量效率和效果。
⽣命周期运营场景：预估运营策略⼲预下的⽤户价值弹性，找到对运营策略敏感⼈群，叠加资源分配策略提升整体⼲预效果。

2. 用户增长中的用户价值定义

CLTV 的定义

CLTV(Costumer Lifetime Value)最早为市场营销领域的一个重要概念，表示的是用户在生命周期内为产品带来的收入总和。在⽤户增⻓实践过程中，⽤户时长、用户活跃等也可以被认为是⼀类⽤户价值。我们通常采用的建模目标是 SCV（nLTV），即用户在生命周期的某个 session 内的价值。

客户资产的定义

CE(Costumer Equity)客户资产被定义为⼀组⽤户的 CLTV 总和。在⼀些场景下，客户资产最大化是产品的重要优化⽬标。例如：生命周期运营中，在有限的资源下，最大化运营⼲预下的⽤户活跃是最大化客户资产的任务之⼀。

3. 用户价值建模行业的工作

随着整个广告行业的发展，⾏业相关⼯作越来越多，主要围绕数据稀疏、数据不平衡、多分布等问题展开。从上图表格中可以看到，随着深度学习技术的发展，近年来的这些工作，都是围绕着用户价值相关问题展开的。

4. 投放场景下的问题分析和用户价值的应用

付费投放，是用户增长领域当中用于获客的最重要的手段。它是在多方博弈下对于公域流量的利用，多个参与方的目标并不是完全一致的，他们之间是互相博弈的关系。比如广告主的目标是希望通过合理的成本，最大限度地获取更高质量的用户；而作为广告平台，其目标是能够最大化广告流量曝光的收入，期望整体 GMV 越大越好；对于流量媒体，目标则是能够提升商业变现的效率，并且能够去保证用户体验不受到损害。在这样的博弈之下，三方会找到一个平衡的状态。

然而随着广告技术的发展，这个平衡其实是在动态变化的。作为媒体平台，渠道分布越来越割裂，用户的流量更多是分散在不同的渠道里面。作为广告主平台，希望通过数据的深度加工，更加自主地去提升投放的 ROI。但是面临着渠道割裂的情况，需要一个统一的对接方案来解决和优化。提升获客的 LTV 是提升 ROI 的关键抓手。

从上述 ROI 公式可以看出，CAC 优化中，降低出价可带来分母快速下降，但严重影响拿量能力。LTV 优化中，对媒体流量的优选是潜客拉新中投放端的最有效抓手。

5. 提升 LTV 的解决方案

随着⼴告平台、数据能⼒的⽀持和⾃身能⼒的不断探索，提升 LTV 的⼿段不断进化。

内容选品: 分析建模"品类"带来的人群 LTV 差异，优化投放品类。但也存在粒度太粗，数据稳定性差。

回传 LTV 建模：广告平台深度出价能力+浅层指标回传，实现"平台助力质量建模与优选"。存在的问题是行业统一建模，难以深入解决业务特有问题。

RTA(Realtime API)：自主建模个性化 LTV 表征用户价值，并通过 RTA 实时流量优选/分层出价。实现方案统一，适合平台化。优势在于个性化粒度，自主灵活建模，具备 ABTest。

02投放场景下用户价值建模实践

1. 大禹投放平台多业务用户价值建模实践

⼤禹投放平台是腾讯 PCG 内部的⼀站式⼴告投放平台，向 BG 范围内产品的增长业务线提供素材创意、广告投放、RTA 策略、效果分析等多维度的能力，让接入产品可以更低成本、高效率地落地广告投放业务。⼤禹投放平台已经服务于⼿机 QQ 浏览器、腾讯应用宝、全民K歌、腾讯动漫等⼗余个业务和产品，并且为这些业务的付费获客投放的 ROI 带来了巨⼤的提升。

然而，该平台也面临着一些挑战：

业务众多：业务线多样化，商业模式差异也比较大；
接入媒体渠道多样化：媒体渠道各种各样，数据分布和投放效果存在较大差异。

建模的基本问题主要分成两大类：一是如何选择建模目标，二是如何合理地评估建模的效果。主要问题包括：

样本数据非常稀疏；
样本存在多分布、多成分问题；
如何合理利用多个渠道的投放数据。

2. 投放场景下 CLTV 建模目标选择问题

因为需要收集很多样本，所以样本等待时间比较长，这会导致我们的 AB test 观测周期也比较长，会影响迭代。因此，在 RTA 流量优选的这个场景下，我们一定要选择一个相对较短期的，才可以敏捷地迭代和建模。

选择 Pearson 相关性的这个方案去建模，并对自然新增流量的 LTV 数据，进行相关性分析。比如图中的例子，可以看到，LTV 14 这个指标和 LTV32、LTV120 这些指标的相关性都是比较高的。LTV 14 是一个相对比较符合预期的观测指标。综合来看，选择 LTV 14 作为建模目标。

3. 投放场景下 LTV 建模效果评估方法

⾏业⼤部分⼯作及我们针对渠道粒度 LTV 建模评估均采⽤ nMAE、nMAPE 评

估⽅法，但在投放应⽤场景中存在问题。因为偏差小，并不代表 LTV 价值的高低。流量优选场景下，LTV 建模更偏向于 Discrimination 问题，而不是 Calibration 问题。样本的 Ranking 比样本的精确值更重要。这里主要提供两种方法：

方法 1：将头部 x% 的样本作为正样本，其它或末尾 y% 的样本作为负样本，评估 AUC。
方法 2：采用 Normalized Gini Coefficient [Google ZILN 2019]。

当投放场景主要为头部高价值用户的筛选或出价时，需要补充关注头部用户的 Precise-Recall 等指标。

在指标评估之外，具体策略上线之前，还可以通过历史数据的趋势去决定策略。比如需要筛选用户流量，那么需要判断筛选多少低价的用户来达到预期的 LTV 提升。此时通过历史的数据回测，如果过滤 20% 的话，LTV14 可以提升的百分比例是符合预期的，就可以把策略上线 AB test。

4. 样本收集成本高带来的数据稀疏问题和解决思路

为提升个性化建模的准确性，在搜索和推荐场景中通常采⽤超⾼维⽤户特征和海量样本的⽅案。付费投放因为预算条件，获取海量样本⼏乎不可能。

可以通过预训练的方式去解决。

这里的解决方案是，用户价值是由多种因素或者因子去共同作用的，而某些因子属于用户特质。引入外部数据强化用户表达，某些因素的信息在业务间进行迁移。

5. 用户价值建模中的多成分多分布问题和解决思路

用户增值付费场景存在零值膨胀问题，即增值服务类产品 LTV 分布非常极端，付费用户占比极低，回归预测效果较差。

解决方案有两种，一是借鉴 ESMM 进行建模，将付费概率和金额进行级联建模；另一种是类似谷歌于 2019 年提出的，对付费期望进行建模。但该方法有个强烈的假设条件，即数据分布符合 log normal。但很多场景下不符合该条件，从微观角度来看，用户收入是由多种成分构成的，这就形成了多成分多分布问题。

这里可以参考两种优化方案：一种是类似快手 2022 提出来的 MDME 多分布 LTV 模型，通过分桶采样缓解样本稀疏和数据不平衡问题，增加 14 天的 LTV 和 30 天的偏序依赖约束进行建模；另一种方案是类似阿里在 2019 年提出来的贝叶斯子成分依赖模型，学习各个 LTV 子目标之间的关系。

6. 用户价值建模中的多渠道问题和解决思路

不同渠道采集到的用户数据的差异性在一些业务中是比较大的，无法直接复用，直接累加会存在数据冲突问题。对于我们的一大挑战就是如何复用。