Fork me on GitHub

数据驱动:指标体系如何助力业务增长

以下文章来源于 https://zhuanlan.zhihu.com/p/667428054

导读本文将讨论如何利用数据来驱动指标体系的构建和后续的应用。

今天的介绍会围绕下面四点展开:

  1. 以终为始的指标体系

  2. 不仅业务驱动,也要数据驱动

  3. 数据驱动指标体系建立实战

  4. 数据驱动指标体系应用实战

分享嘉宾|阮文静 某一线大厂视频APP 资深数据科学家

编辑整理|马信宏

内容校对|李瑶

出品社区|DataFun

在第一部分,将简要介绍指标体系的组成,以及为什么需要指标体系。第二部分将强调在基础的业务驱动之外,为什么需要数据来驱动指标体系的建立,并介绍相关的方法。在第三部分,将针对第二部分提到的数据驱动方法,为每个方法提供相关的实例。在最后一部分,将结合指标体系的整体应用,提供一个贯穿实战的案例。

01以终为始的指标体系



首先来了解一下指标体系。这里有两个经典的案例。左边的图来自一个电商 APP,基于成交额,拆分为客单价和客户数,再将客户细分为新老客户,从而构建了一个完整的指标体系。右边的案例则来自一个经典的内容型产品,它的指标体系是从 DAU 出发,进一步拆解为用户渠道和新老用户规模。

从这两个案例中可以看出,指标体系有两个基础要素,即基础指标和衍生维度。与一般的指标集合相比,指标体系具有层次性和结构性。这就是我们对指标体系的基础描述。



我们需要指标体系的原因可以概括为:如果没有办法量化和测度一样事物,我们就无法有效地提升它。指标使得我们可以量化和评估业务各个阶段的表现,从而更好地了解现状并制定未来计划。

同时,使用指标可以进一步帮助我们诊断问题和解决问题,帮助我们更全面地了解业务的表现,并识别出可能存在的问题。指标还可以帮助我们确定优先级,制定解决方案并跟踪改进效果。

因此,指标是业务管理中不可或缺的一部分,可以帮助我们更好地了解业务的表现,诊断问题并制定解决方案。



那有了指标,为什么需要体系呢?以电商 APP 为例,即使是一个简单的交易环节,也涉及到商家和消费者两方,并在整个过程中产生大量数据和各种维度。面对如此繁杂的数据和业务发展目标,我们需要找到一种方法来帮助他们定位和诊断问题,这就需要构建相应的框架,也就是指标体系。

指标体系通过有层次、有结构的方式,展现了指标之间的关联性和因果关系,使得复杂的问题变得清晰,从而指导业务做出明确的决策。这也正是我们强调"以终为始"的原因。这里的"终",代表业务需要解决的问题,我们要从业务出发来构建指标体系。换句话说,指标体系的构建方式本身就决定了我们如何进一步帮助业务诊断和迭代的基础。

02不仅业务驱动,也要数据驱动



在上一章节中,我们明确了指标体系的重要性,那么在实际的工作当中,我们如何去进行指标体系的搭建呢?很多时候不仅要业务驱动,还要数据驱动。基本上指标体系的搭建可以分两步走,首先确定一个公司长期的发展目标,也就是我们常说的北极星指标,往往是基于战略驱动的,有了这样的一个核心指标之后,进一步我们会在这个基础上去拆解指标,构建体系。



上图是对业务驱动指标体系建立的整体思路的简单概括。谈到业务驱动指标体系,我们往往都会用 OSM 框架,这里的 O 指的是清晰的业务目标;S 指的是业务在落地过程中可以实际去使用的一些策略;在此之上,每一个策略都有对应的过程和度量指标,也就是最后一步 metric 的制定。

从这张图里可以看到,整体是非常贴近业务逻辑的。第一步会在大目标下利用加减乘除,将大目标拆解成各项子目标,再根据子目标在落地过程中相应的抓手去进一步拆分,拆分之后再从整个策略应用的过程和最终度量当中建立整个指标体系。



但是很多时候,仅有业务驱动是远远不够的。接下来,将分享两个实际案例。首先看左边的案例,相较于原来的页面,我们仅仅在顶部导航栏做了一个小小的优化,人均停留时长就有所增加。然而,这并不意味着功能更成功,或者用户体验更好。深入思考后,我们可能会发现两种可能性:第一种是,我们优化了导航结构,使用户更容易消费内容,更容易找到他们想要的信息,这是我们期望的结果;而第二种可能是,相较于原来的简单结构,新的导航结构可能让用户感到困惑,难以找到他们想要的内容。这就意味着,这样的指标很难衡量我们真正关注的用户体验,甚至在指导方向上也做得不够好。

接下来看右边的案例,这是关于搜索算法调整的。调整后,用户的人均搜索次数增加了。然而,这并不意味着搜索功能就更好。可能存在两种可能性:第一种是,我们的算法优化使得用户更愿意搜索,因此整体搜索次数上升;第二种可能是,由于算法优化走了另一个方向,导致搜索效率降低,使得用户不得不频繁更改搜索词才能找到他们想要的内容。在这种情况下,我们会面临同样的问题,这个指标对我们的意义并不明确,既无法衡量我们真正关注的用户体验,也无法明确我们期望的长期发展方向。



再来看一个关于维度的案例。在工作中,我们经常会接到运营团队的需求,比如现在要推广一个大型 IP,如梦华录这样的知名 IP。这里的一个问题是,对于这种相对大众化的 IP,我们应该针对哪些人群进行推广呢?我们知道,人群可以从很多角度进行刻画,例如年龄、学历、性别和地域等。然而,这些基础维度真的合适吗?实际上,很多时候这些基础维度并不能真正反映出有用的核心维度。我们需要通过数据驱动的方式来帮助我们进一步筛选,甚至研发出更适合的维度。



通过以上两个案例,我们可以看出,很多时候仅依靠业务逻辑来构建指标体系是远远不够的,我们需要借助数据驱动,通过数据分析和建模的方式来进一步指导我们的方向,进行指标和维度的开发。

如何进行数据驱动的指标体系建设呢?这里我们可以参考谷歌提出的 GSM 框架来概括整个流程。GSM 代表目标(Goal)、信号(Signal)和指标(Metric)。

首先,我们需要明确目标(Goal),也就是我们想要达到的目的。这可以是提升用户体验,或是提高商业价值,也可能是某些长期追求但短期难以实现的指标。

在明确目标之后,我们需要寻找一些信号(Signal),也就是在实际业务过程中与目标相关联的用户行为。在这个基础上,我们再通过数据驱动的方式进一步筛选或构建信号。

这个框架是相对灵活的,能够帮助我们在不同阶段进行指标和维度的开发。通过这种方式,我们可以更好地将业务逻辑和数据驱动相结合,从而提高我们的工作效率和达成目标的速度。



在上一步中,我们提到了在第二步中需要寻找信号,即寻找一个相对合适的指标集合。那么,如何找到这样的指标集合呢?这里我们可以参考谷歌的 HEART 模型,它为我们在日常过程中寻找指标候选提供了一种思路。

HEART 模型中的 H 代表用户的愉悦度,E 代表参与度,A 代表接受度,R 代表留存度,T 代表任务完成度。例如,在愉悦度方面,相关的用户行为可以包括用户反馈、评价和分享;在参与度方面,可以关注用户使用深度,如访问次数或访问深度;在留存度方面,可以关注订阅和后续续费等指标;在回归度方面,可以关注用户的重复购买或使用行为;在任务完成度方面,可以关注用户完成特定任务的效率。

这个模型为我们在第一步构建指标候选时提供了一些核心维度和常见可选对象。值得注意的是,有时候像用户留存这样的指标甚至可以作为我们的长期目标,本身也可以作为目标去进一步探索信号。因此,这个框架和寻找指标的维度都是相对灵活的。



当我们已经设定了目标并确定了备选指标后,如何进一步开发这些指标和维度呢?现有的方法可以归纳为以下三个分支。

第一个是常见的统计分析法,主要是先了解备选集合的一些统计特性,然后在此基础上,通过相关性技术和可视化探索,明确备选集合与最终目标之间的相关性强弱。

第二个分支是基于机器学习的应用,其核心思想是找到与目标高度相关或起决定作用的信号或特征。常用的方法有 Shapley value,我们也可以尝试使用决策树和 rulefit 等方式直接提取关键特征,而在维度开发过程中,我们也可以通过聚类方式构建新的维度。

第三个分支是因果分析方法,其核心是在统计分析或机器学习等偏相关应用上进行更深入的研究。这个方法主要用于评估用户某一行为对最终目标的增益,以帮助我们确定具体的指标选择。常用的方法有 Uplift 模型,其中也有很多可选的算法可选,如 Meta-learner 或 tree-based 的方法。另一种是 DML 模型,它相比传统的因果分析法,能更好地解决高维控制变量的问题,这两种方法的整体框架都非常灵活。同时,在具体的应用过程中,历史上的一些实验数据也能为我们的指标开发提供参考。在后续的例子中,我们也会详细讲解这一点。



清楚了如何进一步研发指标和维度之后,下一个灵魂拷问就是我们怎么知道这些指标选得好还是不好?这就要联系到我们指标研发的初衷,我们也可以把这里的标准概括为方向性和敏感性两条标准,这也是 Bing-MetricLab 在推行的两个标准。这里的方向性指的是我们这个指标既然是要帮助业务去发展的,那它一定得跟业务策略变动的方向具备同向性,它必须能稳定地给出同样的正或者是同样的负,我们才能用它去作为业务的参考。

另外一个就是敏感性,如果一个指标本身波动特别大,噪音大到我们无法用它做出评估,那么这个指标可能也是一个不太好的指标。



我们可以通过一系列确认实验和退化实验来评估一个指标的方向性和敏感性。确认实验主要是通过历史上已经被用户共识的实验,这些实验具有明确的用户体验变好或变坏的标签。我们将统计指标在这些实验下去进行回溯,如果这个指标与实验本身的标签同向,那么它可能是一个好的信号。如果指标的变动与实验的标签反向,也可以接受,但如果指标时而正时而反,那么它可能不是一个很适合的指标。同时,在这些实验中,指标是否能够有显著的变化,这也是评估指标敏感度的重要依据。

然而,我们知道每年能成功推全并且获得业务共识,甚至是用户反馈的明确好和坏的策略的实验其实是非常少的。如果历史上沉淀的实验不足以构造出这样的确认实验集合,我们就需要使用第二种方法------退化实验。退化实验是在有明确标签或共识的实验很少的情况下,人为地去创造变化,比如开启功能或进行性能退化实验,例如 bug 导致用户的 crash 率上升这种明确性能有损的实验。在这样的实验中,我们可以关注指标的变化情况,并通过实验的方式来评估这些指标在方向和敏感度上的优劣。很多时候,如果我们在第二步的候选集合中没有明显的偏向性,利用实验数据本身就是一种很好的研发指标的方法。

03数据驱动指标体系建立实战



第一个案例是视频 APP 场景播放用户指标研发。业务背景很简单,最初,用户需要手动点击才能触发视频播放,后来我们对此进行了优化,将播放方式改为自动播放,即用户只要曝光在页面上,视频就会自动开始播放。然而,这种情况下,很多用户在无意识下滑或横刷时,就已经触发了播放,使得场景播放用户的数量大幅度增加,引入了很多对场景没有意识的用户播放,极大地影响了人均消费等指标的准确性。因此,业务的需求就是如何度量真正对这个场景有意识的用户的消费深度,即希望通过指标研发的方法,剔除自动播放的影响。

在这个背景下,我们选择了用户每一条播放日志的播放时长和最终播放完成占比作为统计分析的起点。通过对趋势图的分析,我们发现无论将视频物理时长如何分段,播放时长特别短的情况下,播放完成占比都非常低,且没有太大的变化。但当播放时长达到一个特定值后,完成占比会发生明显的跃迁。

同时,我们还参考了历史上的一个实验数据,这个实验虽然在 UI 设计上与当前案例有所不同,但本质上也是手动播放和自动播放策略之间的切换。通过对比实验数据,在自动播放和手动播放两种策略下,播放时长分布的差异,我们发现在特定时长后,差异明显减小。

通过这样的统计分析和实验数据的参考,我们最终确定了一个特定的播放时长值,帮助我们剔除自动播放用户的影响。这就是第一个基于统计分析进行指标研发的实际案例。



第二个案例也是一个播放指标的研发,就是我们刚刚提到的剔除自动播的影响。

业务的诉求是更进一步的,希望能提升用户的留存和活跃度。提升用户留存和活跃度背后的一个很大的假设是,我们需要通过算法给用户推送他们感兴趣的内容,才能在长期的业务发展中提升他们的留存和活跃度。

因此,接下来的一个问题是,什么样的指标能够帮助我们在有意识播放的基础上,进一步筛选出用户真正感兴趣的内容。这里需要研发一个指标,能够帮助我们识别用户是否对内容感兴趣,是否会进行深度消费。

然而,视频的内容结构、物理时长,甚至它的连续性可能都有很大的差异,用户本身的行为也形形色色,这些因素都可能影响用户的表现。因此,我们需要找到一种方法来排除这些因素的影响,这里提出的解决方案就是因果推断。

我们将问题进行了一系列前置分析,具体不再赘述。然后我们将其转换成了一个基础的因果推断问题:当用户播放完成度大于多少时,我们对用户后续留存的提升增量的一个测算。这里的播放完成度指的是用户实际的播放时长占整个视频内容的物理时长的比例。

我们的做法是使用 Uplift Meta-learning,选择了视频、用户以及节假日的一些特征作为输入变量。我们的处理变量是用户播放完成度是否达到一定阈值。模型的结果是希望提升用户留存度。最终评估的是播放完成度是否达成对留存的平均处理效应,即达标和未达标人群在留存效果上的期望差值。



最后,我们得到的结果非常符合预期。观察图中的示意,我们可以看到播放完成度越高,对留存以及最终的 ATE 提升就越明显。结合 ATE 本身的幅度和变化曲率,我们确定了播放指标播放完成度的合适水平。

此外,我们还使用了确认实验的方法进行指标评估。举两个例子:一个是算法策略优化,另一个是样式优化。在算法策略优化实验中,我们发现数据驱动研发的人均播放时长和活跃度指标明显同向且显著。而与之相比,没有经过数据驱动研发直接加总的人均播放时长指标则不显著,甚至呈轻微负向。同样,在样式优化实验中,我们发现数据驱动研发的时长指标与活跃度同向且显著,而基础的人均播放时长则表现出不显著甚至相反的结果。

通过这些确认实验,我们再次证明了基于数据研发的指标在某些场景下具有更好的同向性和敏感度。我们将这些指标用于后续的用户画像制作,以及收集用户反馈来衡量用户满意度。这些结果都证明了数据驱动研发的方法是一种更精确的方式。



上述案例向大家介绍了如何运用因果推断方法进行指标挖掘。接下来,我将介绍如何利用机器学习方法挖掘用户偏好维度。

在这个案例中,我们的长期目标是提升用户的留存和活跃度。为了实现这个目标,在内容型 APP 上,我们可以通过算法调优或供给调优,并基于用户分群进行精细化策略调整。然而,面临的一个问题是,人群分组的方式有很多,无论是基于算法调优还是供给调优,选择都很多。而基于基础的人群画像(如年龄、性别、教育程度等)进行分析,我们发现用户的播放偏好非常多样化,很难帮助业务聚焦并进行后续调整。

为了解决这个问题,我们采用了一种新的解决方案:不考虑基础维度,而是直接对用户的长期播放历史进行聚类,以帮助业务创建更有针对性、更有用的业务标签。具体操作过程包括特征选取(如播放时长)、细化描述(用标签描述)、Kmeans 聚类方法以及通过拐轴法和轮廓系数确定簇的个数等。



首先,这种方式确实帮助我们识别出了具有明确消费偏好的用户群体。以喜欢看热点动漫的用户为例,他们的消费集中度非常高,头部消费榜单和整体用户构成的分布都符合业务预期。

在业务应用过程中,例如算法效果提升,我们尝试使用基础属性画像和挖掘出的偏好维度共同进行分析。通过对比,我们发现使用基础属性画像进行算法分析时,很难找到问题,推荐转化在各个人群分组上基本持平,没有特别明显的过高或过低现象。同时,我们发现曝光头部的内容相似度较高。然而,当我们使用消费偏好维度分析时,就能明显地发现问题。例如,少儿偏好用户在推荐转化上表现正常,曝光头部与他们的长期消费偏好相符。然而,对于动漫或新粉综艺用户,整体转化率偏低。进一步观察发现,他们的曝光头部可能与他们的偏好并不匹配。因此,我们向业务部门提出了优化建议。

从这个案例中,我们可以清楚地看到,基于数据挖掘的维度在实际业务应用中往往具有更高的针对性和洞察力。这个案例也是我们在第二部分提到的基于机器学习方法进行指标体系研发的应用。

04数据驱动指标体系应用实战



在介绍了不同方法下的指标体系研发之后,我们将通过一个实战案例,展示如何让指标体系在业务中发挥作用。指标体系的应用可以分为三个步骤:预警、诊断和策略。

预警阶段主要关注指标的异常和异动。识别方法可以基于统计规则或预测模型。统计规则包括常见的 3-sigma 方法和分位数法。预测模型指的是对指标变动的预期,可以使用 xgboost 或时序模型进行预测。判断标准是实际发生的情况与预期之间的差距是否过大,如果过大,可能就是一个问题事件。

诊断阶段主要是归因分析。方法包括指标体系多维度的下拆和gini系数的应用。在论坛的后续环节,老师们会对此进行详细的介绍。

第三部分是策略挖掘,针对第二步中发现的问题,给出业务指导策略建议。常见的策略建议主要分为三类:人群、场景和流量策略。

通过以上三个步骤,我们可以让指标体系在业务中发挥实际作用,为企业带来价值。



下面,我将向大家介绍一个抽象出来的应用案例------播中干预,它是让指标体系全面发挥价值的一个很好的展示。

我们经常会面临这样的业务问题:内容最近播放量下降是什么原因?为什么某个 IP(大剧)上线两周后播放量仍未上升?甚至在季度或月度报告中,老板也会提出这样的问题:这部电视剧看起来无法达到预期的播放规模,背后的原因是什么?有没有进行复盘?

为了解决这些问题,我们会经常进行异常归因复盘分析和问题诊断。然而,这种复盘方式往往发现问题较滞后,错过了 IP 的排播期,导致播放量难以挽回。即使我们发现了问题,短期内也无法提供针对性的提升手段,因此在实践中可能做得有限。

针对这些业务问题,我们提出了一个全链路闭环解决方案。从内容上线开始,我们紧密追踪 IP 的表现,对是否能达到预期进行预警。一旦发现问题,我们会推送诊断结论,并直接提供可落地的策略建议。同时,我们还会打通整个数据回收流程来进行效果复盘。

通过这种前置串联和闭环的方式,让我们的指标体系在实际业务过程中真正发挥价值。



上图是整个链路的整体框架。我们现在正在将这个过程产品化,主要服务于上线运营环节。右上角是对应整个项目背后的指标体系,以播放时长为例,我们主要通过流量分布和用户分群这两个核心维度,采用用户路径拆解的方式来搭建指标体系。

在业务环节中,第一步是项目潜力识别。我们会对核心指标进行预测,判断项目是否能达到预期的表现,并进行风险预警。对于未能达标的内容,我们会进一步进行诊断分析,包括人群表现和资源位表现。同时,根据用户在整体播放过程中的反馈,我们会提供一些关于物料制作和剪裁的洞察。

最后,结合诊断分析中人群和资源位的综合结论,我们会帮助业务部门进行人群触达,直接提升整个 IP 的投放效果。通过这样的方式,我们可以让指标体系在实际业务过程中发挥更大的价值。



潜力识别主要针对内容播放进行相关预测。在实际操作中,我们会按照品类和时序对核心指标进行预测,其实际准确率已经达到了一个较好的水平。在具体的展品呈现中,我们不仅提供预测结果,还会将预测过程中的各个漏斗环节拆解清晰,以便更好地理解整个预测过程。这样,业务部门可以根据这些信息进行相应的决策和调整,以提升内容的播放效果。



在诊断分析阶段,我们会重点从之前提到的几个维度,如人群和资源位,进行相关诊断。

在人群方面,我们关注的重点是那些渗透率较低但转化率较高的人群。我们认为这部分人群可能是后续扩大播放规模的目标人群。而对于那些曝光度高但转化率低的人群,我们可能会将其作为后续进一步排查的对象。

在资源位方面,我们会关注内容在每个页面和模块的表现,帮助业务部门进行进一步的优化。通过这种方式,我们可以更好地发现潜在问题,并为业务部门提供有针对性的优化建议,从而提升内容的播放效果。



结合诊断分析和资源位的最终输出,我们会在后续选定的资源位上创建人群包,进行人群触达。我们希望通过这种方式,帮助运营老师们更精准地通过数据驱动的方式实现目标,从而实现直接通过策略干预来帮助业务达标的最终目标。

这个播中干预项目整体的应用思路是:基于指标体系,在业务的每个环节通过数据驱动的方式及时预警、诊断和策略干预,从而帮助业务实现最终目标。

以上就是本次分享的全部内容。谢谢大家。

以上就是本次分享的内容,谢谢大家。




本文地址:https://www.6aiq.com/article/1700388166639
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出