"网易严选稿在流量分发场景，人们对算法模型有两层需求（既要又要）：不干预：流量分发由模型接管, 算法模型解决流量如何分发的问题。干预：流量分发可以被干预, 算法模型解决流量如何调配的问题。严选主站场景流量如何分发由搜推广解决，流量如何调配由在搜推广之上的流量决策解决，本文讨论如何实现高效、有 ...."

Fork me on GitHub

alg
本助手集算力、智能于一身，为您提供最精彩全面的人工智能技术资讯
算法机器学习人工智能 • 0 回帖 • 1.4K 浏览 • 1 年前

网易严选 | 流量分发决策：既要又要的平衡之路

网易严选稿

在流量分发场景，人们对算法模型有两层需求（既要又要）：
不干预：流量分发由模型接管, 算法模型解决流量如何分发的问题。
干预：流量分发可以被干预, 算法模型解决流量如何调配的问题。
严选主站场景流量如何分发由搜推广解决，流量如何调配由在搜推广之上的流量决策解决，本文讨论如何实现高效、有效的流量调配，保证短期利益的基础上探索业务的长期价值。

1 流量分发场景

在流量分发场景，人们对算法模型有两层需求（既要又要）：

1.1 不干预：流量分发由模型接管

每个用户每次的内容呈现由模型决策，模型以最大化模块当前的UV价值为目标，具有以下特点：

模型决策过程黑盒，很难具有可解释性。
模型决策效果>>HLP(HumanLevelPerformance)，HLP可以视为某种具体分发规则的实现。

该场景下的流量我们称之为自然流量 ，自然的含义是指没有人为干预。

1.2 干预:流量分发可以被干预

很多情况下流量分发只考虑当下的UV价值是不够的，例如：

出于战略目标，希望保证某些商品具有足够多的流量。
商品已到库存成本警戒线，需要加大清库存。
新品培育、换季趋势商品需要更多流量支持。
为保证用户体验需要人为调整流量。

上述几个场景相当于指定业务流量分发的大方向大策略，在此之下依赖重排模型落地精细柔性的流量调配能力，以最小的代价实现流量调配的业务目标。

该场景下的流量我们称之为调配流量 ，主要作用在重排阶段 ，有针对性的精细调整。

2 流量决策的目标

2.1 进一步提升模块效果

线上场景容易发生Data/Concept Drift，原因可能是营销活动、外部事件带来的突发变化，又或者是季节性变化。自然流量下的模型：

自然流量分发模型为“T+1更新” + “实时特征”
可以捕获变化，但需要一定的时间积累适应数据，等模型适应后变化已经消失。
可以增加策略，但太过生硬无法逼近最优解。

Data/Concept Drift 的存在使得技术上存在优化空间。自然流量的分发模型也可以做 “实时训练” + “过曝算法”来优化问题，但因为搜推广的算法小团队都在一起，所以我们统一放到“流量决策”去及时、优雅的解决变化(Drift)问题。

同时明确好项目间的职责边界：论证有效的长期策略/算法/特征，优先在自然流量下的模型固化融合，其余由流量决策来承载。

2.2 关注业务的长期价值

业务的长期价值：

自然流量算法：解决如何高效分发问题
调配流量算法：解决如何有效干预问题

自然流量下的模型关注的是当下最优，无法以长期价值调配流量，也无法解决流量和业务协同的问题（详见流量需要被干预的场景描述）。

所以流量决策需要以长期价值为导向，同时尽量保证短期利益。

3 流量调配技术

真实的流量分发场景，用户看到最终的Item(广义表述,可以是商品、内容、活动)呈现，历经的Pipelin包括：召回→过滤/合并→精排→重排 。流量决策落地在重排阶段，同时流量决策需要先回答两个问题：

对哪些Item进行流量扶持？
涉及到业务长期价值和潜力Item挖掘，先按下不表。
如何对扶持Item进行流量调配？
对当下模块价值不产生大影响，同时满足需要的加量目标，最好做到每份流量的调配决策差异。

流量调配的技术方案在我们场景分为两种：

Machine Learning(ML) + Operations Research(OR)，将机器学习的输出作为运筹优化的输入，通过目标定义和约束表达来调整排序位置。
构建实时反馈系统，以控制论PID算法更新动态参数，决策调配的Item。

3.1 ML+OR

我们依赖开源包OR-Tools作为优化求解实现。精排阶段的输出提供CTCVR，扶持商品有流量目标 Demand，基于这些数据可以构建优化求解的定义。

定义求解器
重排问题可以视为0-1规划，Rerank Matrix为重排矩阵，其中代表该Item重排结果，行数据为重排后的位置，列数据为重排前位置 。
定义变量
Rerank Matrix中的每个值均为 0-1 BooleanVariable。
定义约束

Rerank Matrix 矩阵的每一行、每一列相加为1；
也可以加类目多样性约束，CateInfoMatrix为重排前每个位置的Item类目信息。

最终在 Rerank Cate Info Onehot 矩阵中计算类目占比约束。

定义目标

将重排前Item的 CTCVR 、流量Demand可以综合为 OrgScoreWeight
PosWeight 为每个位置的权重

优化求解
最终目标函数为：MAX(sum(Object_Info))

该方案的好处是可以实时基于数据求解，坏处是会引入额外 20ms-30ms的耗时，但可以在重排范围，变量数量，T+1 调用等方面去缓解耗时问题。

3.2 控制论 PID

PID(proportion integration differentiation) 是控制论中广泛使用的算法。实现PID的关键是构建实时反馈环境，基于误差动态调整参数，达到实际值在目标值的接受区间内波动的控制效果。具体看下图示意：

图中Reference、Sensor、Controller共同构成PID的控制实现组件。
在每一个时间片内Sensor收集数据，计算和Reference差异，通过Controller更新参数调节，最终使得目标数据在Reference区间内波动。

在我们的流量决策场景里，将重排问题转化为预算花费问题（类似程序化广告投放），预估每个位置的千展价值CPM，扶持商品的位置上拉定义为预算消耗，重排问题定义目标如下：

C_{ij} 表示扶持商品j 在第i 份流量的价值， X_{ij} 表示扶持商品 j在第 i 份流量触发重排曝光，目标是触发调配效果的商品价值最大。

1pv_{after}表示调整后坑位价值， $1pv_{before}表示调整前坑位价值， B$为扶持商品总预算。

CTR_{ij}表示第 i 份流量中商品 j 的预估点击率，R 为重排模块中CTR的下限要求。

引入两个约束: 总调节花费要小于总预算 B ，扶持商品的总体CTR要大于下限 R ，这两个都是软约束, 希望控制在一个区间波动。
问题定义推导后可以得到和约束相关的参数 \alpha 、\beta （即是PID动态更新的参数）：

\alpha控制预算花费，当预算未花费缺口大， \alpha 减小提升调整幅度。
\beta控制CTR下限，当CTR下滑较多， \beta变大降低调整幅度。

动态参数\alpha 、\beta 使用 PID 来更新：

每个时间片会计算误差来更新参数， r(t) 为目标值， y(t)为目标值。

k_p为当前误差权重， k_i 为累计误差权重， k_d 为前后时间片误差权重。

\phi为PID汇总误差u(t) 下的更新函数，一般可选指数函数（注意正负号调整）。

该方案的好处是动态参数的更新和实时请求解藕，流量调配的重排不会增加请求链路的耗时，坏处是当环境数据比较动荡，动态参数不稳定会导致控不准。

4 最后

本文为严选流量决策项目的阶段总结，错漏之处欢迎交流沟通。

本文地址：https://www.6aiq.com/article/1651017723588
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

网易严选 | 流量分发决策：既要又要的平衡之路

1 流量分发场景

2 流量决策的目标

3 流量调配技术

3.1 ML+OR

3.2 控制论 PID

4 最后

相关帖子

随便看看

网易严选 | 流量分发决策：既要又要的平衡之路