「回顾」58 同城 综合排序框架 连接效率优化实践



转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com

AIQ 机器学习大数据 知乎专栏 点击关注

分享嘉宾:罗景** 58 同城 高级架构师 **

编辑整理:洪鹏飞

内容来源:DataFun AI Talk《连接效率优化实践》

出品社区:DataFun

注:欢迎转载,转载请注明出处。

本次分享由以下几个部分构成,首先是 58 的业务背景,然后是综合排序框架,以及效率优化框架,并且对基础数据流程、策略优化路径、效率优化平台三个方面进行详细介绍,涵盖各个流程框架在 58 业务场景下的实现方式以及优化路径,最后是总结和思考。

这是 58app 端的业务展示,可以看出 58 的业务场景丰富且复杂,产品形态多样,涵盖了租房、二手房、二手车、招聘、本地服务以及二手物品等多种业务,针对每个业务,又分为置顶,精品,普通等多种不同的产品形态。

如上图所示,整个算法层分为三个阶段:粗排、精排和调序

粗排阶段,主要考虑减小模型压力,筛选出一部分排序候选集。主要采用时效性策略以及质量因子的降权策略。分别根据不同周期进行分层处理,用于时间降权;同时对质量因子,采用价格偏离、类目错发、位置虚假等因子进行降权排序。

精排阶段,主要考虑列表点击率、有效转化率、个性化以及相关性信息,对粗排后的集合进行精细化排序。

调序阶段,根据业务相关以及过滤相关等策略进行重新排序。

在上述粗排、精排以及调序三个阶段中,算法团队重点输出了质量治理,效率优化以及流量调控三种核心能力。

效率优化框架由三部分组成:数据、算法以及工程。在进行效率优化框架设计和迭代过程中,主要结合相关业务,对策略的相关优化路径进行迭代更新,最后对相关技术以及方案进行相关积累,形成平台化沉淀,方便以后复用。

优化路径,包括:策略优化路径效率优化平台

关于策略优化路径,主要分为四个阶段:

1. 反馈策略。这主要运用于业务建模初期,采用平滑策略,位置消偏,时间衰减,流量反作弊策略进行初期模型的相关排序;

2. 基础模型。主要进行基础流程建设,涉及 LR、GBDT 模型,用户个性化,帖子结构化这几方面进行优化;

3. 特征升级。主要针对组合特征,时效性升级,文本特征以及图像特征几个方面,使模型效果更佳;

4. 模型升级。主要针对融合模型,深度学习模型,以及在线学习方面进行相关迭代。

关于效率优化平台,主要针对日志合并清洗,特征工程,模型训练评估以及上线验证四个阶段进行优化。

进一步对效率优化平台进行介绍:主要针对日志系统,日志样本,机器学习,上线试验以及线上系统进行相关优化。

1. 日志系统:针对日志样本、机器学习、上线试验这几个方面进行平台化整合,包括流程执行、流程管理、特征开放以及配置管理等。

2. 日志样本:涉及日志预处理,帖子特征抽取,个性化生成,样本生成等;

3. 机器学习:涉及样本采样,特征工程,模型训练,评估分析等;

4. 上线试验:涉及推送流程,实验系统,报表系统等。

接下来对涉及到的相关技术点进行介绍:

1. 数据:日反作弊、特征开放平台、样本选取;

2. 算法:反馈策略、基础模型、特征升级、模型升级;

3. 工程:特征组件化、融合模型框架化、平台化整合。

关于数据,主要涉及日志反作弊和特征开放平台。

数据的生成分为两个阶段,第一个阶段为原始样本生成,第二个阶段为样本生成。

原始样本主要来自于曝光、点击以及转化日志,在相关日志的合并以及清洗之后可以获得原始样本数据。

样本生成,主要是在特征开放平台上生成。涉及到帖子特征库,用户个性化特征,以及相关的特征描述文件。

其中,帖子特征库由帖子结构化,反馈特征,文本图像特征三个方面组成;用户个性化特征,主要由帖子特征库和点击转化日志而来。

对于样本新特征问题,平台采用自动合并机制,对新增加的帖子新特征以及用户新特征进行合并。

经过上述两步的处理,样本数据便形成了。

在数据日志反作弊阶段,主要针对 IP,用户进行相关日志反作弊处理,主要涉及到多指标判断机制以及作弊标记机制:

1. 在多指标判断机制中,主要有曝光量、点击量、转化量、点击率、转化率这多个指标进行相关的判断;

2. 在作弊标记机制中,主要对特征的字段进行相关的作弊类型标识。

下面是针对 IP 反作弊规则的例子:

1. 采用曝光大于某个阈值,CTR 小于某个阈值,对曝光异常但是点击合理的 IP 数据进行相关的过滤;

2. 采用曝光大于某个阈值,转化小于某个阈值,过滤掉曝光异常但转化量偏低的 IP 数据;

3. 采用 CTR 大于某个阈值,过滤掉 CTR 异常的 IP 数据;

4. 采用转化除以点击大于某个阈值,过滤掉点击到转化异常的 IP 数据;

5. 采用 CVR 大于某个阈值,过滤掉 CVR 异常的 IP 数据等等。

模型的效果主要由特征,特征工程以及算法组成,特征工程在模型效果方面表现的异常重要。数据特征开放平台是主要为了简化新特征尝试流程,降低尝试代价,并快速支持试验。特征开放平台采用规范化元数据描述、管理,自定义合并机制,支持时效性对齐,自动触发,以及定制化回溯机制,其基本流程为,首先在特征注册平台上进行注册,完善特征的元数据描述;接着按规范格式与约定时效性在给定的存储位置生成数据;最后根据样本生成流程基于特征描述紧张自动化合并。

反馈策略在建模初期使用,主要采用平滑策略,位置消偏,时间衰减三种策略进行优化迭代,对准实时反馈以及历史反馈分别进行 7 天为周期分钟级滚动统计点击率和转化率以及 30 天为周期按天滚动的点击率与转化率。在实行反馈策略后,实时点击率有 10% 的提升,而历史转化率方面,转化效果有一定提升。

在数据样本选取方面,支持多种场景,例如模型类型、业务类型、产品形态,并实现了灵活配置样本的选取机制,大致有以下四种机制:

1. 基于表达式;

2. 预定义缺省组件(Raito,Pos,Neighbor,Random,Unique..);

3. 组合方式(and,or,not);

4. 自定义组件。

同时可以采用标准方式选取,相关实例采样以及样本过滤操作。

在基础阶段模型上,通常采用 14 天的数据做训练,并采样成 1:15 的正负样本比例,使用 3 天数据做为测试,并以 AUC 作为主要离线评测指标。原始特征在 150 维左右,针对 LR 模型采用离散化编码处理方式,特征超高维度。模型方面,对原始特征主要采用 XGB 进行训练。

在效果方面,针对租房普通列表页面上,有 20% 以上的转化率提升;而在租房精选上实现了 30% 以上的 ECPM 提升;而在普通列表页面上,电话接通率提升 10% 以上。

在特征工程组件化方面,采用组件名(输入,配置)到输出的配置方案,其中涉及 1 对 1 的特征变换,1 对 n 的特征编码,n 对 n 的特征组合,同时还满足各种适配条件进行相关组件化配置。

在工程融合模型框架化方面,可以拥有以下两种功能:

第一种,支持表达式配置,灵活,支持多种形式的组合;

第二种,样本标识机制下,保证了批处理框架下的样本对齐。

同时模型融合方面,主要采用结果融合以及特征融合,结果融合主要将模型预测结果作为特征,而特征融合方面,利用训练好的模型来构建特征,例如 GBDT 编码特征,NN 编码,FM 隐向量等方式。

融合流程:

第一步,在效率优化平台按照正常流程训练好待融合模型;

第二步,准备目标模型样本数据;

第三步,基于样本数据生成基于待融合模型提取的特征;

第四步,将初始样本数据与根据带融合模型提取的特征进行合并,形成融合模型样本;

第五步,训练目标模型。

特征升级主要包括:

1. 时效性升级:反馈特征按周期滚动,分钟级更新,同时还提取了相应周期的个性化特征;

2. 特征组合:采用笛卡尔组合和匹配组合方式,例如价格面积组合,价格性别组合,个性化偏好等;

3. 文本图像特征:采用词向量,关键词,图像饱和度,图像全连接模型输出特征等。

关于模型升级,主要采用 LR 的预测结果接入 GBDT,或者 GBDT 的结果接入 LR;而在深度学习方面,采用 Wide&Deep 以及 DeepFM 等技术实现算法迭代。

在 WideDeep 实现方面,主要将 wide 部分的连续特征进行离散化,相关特征有 RCrctr,HCtagfhgectrap 等特征;并将枚举离散化特征,主要用于离散特征个数较少的情况;而 Hash 离散特征,主要用户离散值数量较大的特征,离散分桶最大值为 5000;在交叉特征方面,主要由帖子维度组合,帖子与用户基础属性组合。而在 deep 部分,连续特征主要采用离散化最大最小归一化处理,枚举离散特征和 wide 部分一致,而 Hash 离散特征采用 embedding_size 方式,而在 Embedding 特征方面,采用个性化加个性化组合的方式。

而在平台整合方面,主要由三个大的模块组成:

第一个模块为基础模块,包括日志样本、机器学习以及上线试验;

第二个模块为用户工作空间,主要用于数据相关的配置;

第三个模块为基础数据,主要涉及流程数据库,样本数据,日志数据,和效果数据。

通过这三个模块,平台拥有流程创建,流程配置,运行监控,模型转换,推送上线,报表关联等功能,同时应对了特征开放平台,数据管理,流程管理,实验管理,报表管理等方面。

上图为机器学习平台的配置页面,可以看出从基础配置,训练采样,测试采样,特征以及训练,可以看出模型测试和训练简洁便利,做到了 5+ 专属的流程切换,全效率优化流程管理,策略成电分享复用,也降低了维护代价,降低优化的门槛。

效果和下一步

经过整个流程的优化,可以看出效果:房产精选(二手房精选、租房精选)实现了相比基线 40% 到 60% 的 ECPM(千次展现收入)提升。而在普通业务方面,租房,二手房,二手车上实现 10% 的转化率提升。

下一阶段,将对深度学习进行相关的探索,尝试多种深度模型,并集成 Tensorflow 到模型训练流程,探索在线、离线学习一体化平台,同时要利用丰富的数据,例如有效转化数据,文本图像视频特征等。

总结

在策略优化上,要尽可能循序渐进,关注数据丰富度与质量,同时明确业务优化目标,兵保证线下线上的一致性,此外还要保证新技术探索与优化目标的权衡。在平台建设上,要重视工程能力,监控预警机制,同时进行迭代优化。

作者介绍:

** 罗景,**58 同城高级架构师。多年互联网实践经验,曾分别在 IBM 研究院,腾讯搜索 & 广点通,小米数据 & 广告从事搜索 / 数据 / 广告等相关研发工作,目前在 58 同城负责搜索列表排序与房产商业的效果优化。

作者文章推荐:

58 搜索效率优化平台建设实践****

58 搜索列表页连接效率优化实践****

内推信息:

公司:58 同城

Base:北京

职位:算法工程师

邮箱:** luojing04@58.com**


更多高质资源 尽在AIQ 机器学习大数据 知乎专栏 点击关注

转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com