网易严选流量数据体系演进（上篇）

网易技术稿

在互联网场景，无论是构建广告、搜索推荐、投放、用户触达等场景，其实都是围绕着用户行为流量进行各种人工或智能策略的流量调控分发或是人群运营。在这些精细智能化运营的背后，对流量数据的丰富性、时效性和灵活性提出巨大的挑战。

本文主要分享了在网易严选电商流量数据建设，一套覆盖全链路、通用场景归因量化、多维度灵活的流量数据体系，服务数据驱动的人货场匹配的核心业务营销场景。

1 背景介绍

流量数据作为电商数据体系构建的基石，为严选用户增长、产品优化、智能运营及科学决策等方面，提供了可靠的业务分析及决策依据。

早期严选流量数据的体系围绕着埋点规范设计及全周期管理工具(夸父)、用户行为分析工具(神相)搭建。下图左1展示了流量数仓业务架构，我们可以看出现有系统有一系列单体系统构成，暂未形成全流程业务闭环，解决全流程系统自动化打通的问题。

同时基于单一埋点事件模型的用户行为分析已经满足不了精细化运营需求，更多的是需要搭建通用的营销行为，同时数据应用场景从报表型->分析型-->决策型，通过更直接的通过营销数据产品、算法能力去改变用户的行为、调控流量，从而带来直接的业务影响。以下为现流量数据整体业务架构。

对此，我们在对流量体系架构有如下要求与挑战：

营销前端业务复杂度高、迭代快，流量数据建设需要快速满足新业务场景接入；
投放、触达组合手段多样，需要根据营销目标，精准刻画流量转化效果；
业务场景多样、海量行为日志，数仓需要提供低延时、灵活、扩展性数据查询能力。

2 解决方案

为了解决上述问题，我们需要一套系统化的解决方案。主要以数据中台工具能力建设为基础，基于埋点和归因体系化相结合，提出了一套全链路数据标准化生产、流量特色设计的数据体系建设方法论。

针对流量数据链路场景，我们分别从埋点、数据体系、数据生产三方面实现一系列关键技术：

通用埋点方案沉淀： 埋点数据标准化，统一多端生态的位置(页面模块)与内容资源；
分析体系搭建： 归因体系搭建，覆盖站内外通用业务场景，数据模型、方案设计上需要考虑灵活与扩展性；
数仓建设： 统一的实时离线数仓建设，支撑电商大促场景下流量数据资产更高时效、稳定输出。

2.1埋点体系建设

严选的埋点规范建设包含对用户通用行为的抽象：事件的定义，页面，模块，参数以及版本的管理。大致拆分成了两类：一是发生行为的名称(事件)以及位置(页面、模块、坑位)，二是发生行为的内容(参数，版本信息等)。

（1）页面模块体系

页面模块体系，主要是管理资源对应的位置信息，即APP/PC/WAP/小程序各端的固定式业务模块划分。其基础思路是统一化、标准化当前各端的页面、模块、位置，并进行编码管理，供APP、H5、商城业务、数据业务等统一接入。为后续统一投放->看数视角、APP产品端动态化(布局、样式、数据)、AB实验、自动化埋点打下基础。

（2）全埋点方案

埋点信息总体分为两部分：埋点页面位置信息和埋点位置业务内容信息。所以，全埋的最终理念就是实现：位置信息和内容信息的自动化，位置信息自动化例如xpath，内容信息自动化例如资源投放平台的下发。

位置模型YPM(Yanxuan Position Model)： 根据模块名以及模块所处的层级关系，能够构造出该模块的唯一标识。严选埋点的页面位置信息可以通过现有的体系建event_name的规范定义和parameter中的sequen参数，能够确认位置的唯一性。

内容模型YCM(Yanxuan Content Model)： 与业务内容一起下发的埋点数据，用来唯一标识一块内容。统一透传参数extra内数据层级，对业务内容(商品、素材、投放任务ID等)统一使用唯一标识。

流量可以唯一标识到页面、模块、位置任意层级，实现位置和内容分离。基于电商业务复杂性和历史原因，严选采用的还是全埋点+手动埋点相结合的方案。

（3）链路数据方案

上述是基于单一事件的埋点规范建设，在链路行为串联上主要实现了以下几种方案：

全链路透传： 按照先进先出原则保留用户5步内用户路径信息。同时考虑对数据的实时查询要求，丰富原有id数组数据结构；
入口页透传： 以商详/加购作为卯点，末次归因入口页面模块；
推广投放链接： 严选App推广投放链接，渠道追踪与数据收集。

2.2数据架构

（1）模型分层设计

在数仓架构上，整体按照数仓高内聚、低耦合的原则进行分层标准化建设。

ods：主要前端埋点基础日志、push等触达日志以及业务库db数据，通过统一的AutoETL标准化组件实现统一的规范化离线和实时ODS层；

dim：从埋点流量日志抽象核心设备维度、唯一身份识别uuid。通过业务库db数据抽象页面模块维度、投放计划等核心配置维度；

dwd：主要分为两部分以业务过程作为建模驱动、适当维度补全，构建最细粒度的明细事实表；以及基于归因体系构建转化明细层。

dws：提供各主题一致性细粒度和指标的轻度汇总数据。减少流量数据计算存储成本，同时封装复杂口径定义，保证数据的一致性输出。

实时数仓在构建上与离线建设理念是基本一致的，只是在分层设计上会更注意减少依赖层次的链路。

（2）唯一身份识别

通过用户设备帐号一体化，打通了用户未登录态及登录态的数据，补全了基于user_id的用户访问行为特征数据。

（3）归因体系

如果说前面是基于单一事件4w1h(who,when,where,what,how)五个维度构建埋点体系，那么营销数据体系构建上主要是基于why->how的触点归因体系。

常用的归因包括：首次点击、末次点击、多点归因等，根据分配方式又可以分为线性归因、时间衰减、马尔可夫、shap值分解等。我们在站外拉新召回、站内页面导购、用户触达三个电商常用场景我们沉淀了三个通用归因能力：

渠道归因： 核心解决如何衡量站外各组合营销渠道广告带来的转化效果，从而更好得指导广告投放。主要是通过将每一个激活和订单，通过合理规则归属到一个渠道上，在此基础搭建分析体系。严选渠道归因采用业界最常用的单点末次归因。一个订单用户被多个渠道干预的情况下，订单将归属于：在订单提交之前的、优先级最高的、事件时间最晚的访问记录的渠道。

页面导购归因： 按照app用户浏览链路划分必经页面入口页与承接页，主要分为末次归因、三步多点归因两种方式对用户行为进行追踪，通过导购链路归属订单下单来源，从而量化站内坑位流量转化价值。

触达归因： 主要应用于主站体系内的push/短信/弹窗等自动手动营销效果归因，结合场景和效期选取了时间衰减模型多点归因，核心思路为两点：借助时间衰减曲线初步确定权重基数(时间距因子)，个性化场景权重系数调整。

3 总结

基于以上归因能力，我们建立了一套通用、统一视角的流量营销转化评估体系，那后面需要思考的是如何将我们的数据高效、稳定地生产加工、输出赋能于业务。在实际业务场景中流量数据还面临着数据量大、加工全链路长等技术挑战，这些都需要我们从数据链路生产、模型设计、链路保障上有一定思考与设计，下篇将会从数据计算角度分享流量数据计算场景的经验与质量保障。