Fork me on GitHub

图算法在蚂蚁集团信用风控场景的应用

以下文章来源于 https://zhuanlan.zhihu.com/p/628085982

导读: 本文主题为图机器学习在信用风险管理场景的应用。

全文主要围绕下面三个方面展开:

  1. 信用风控的背景

  2. 蚂蚁现在使用的图学习算法和系统

  3. 信用风控应用


分享嘉宾|王岱鑫博士 蚂蚁集团 算法专家

编辑整理|徐焱森 中经惠众

出品社区|DataFun


01/信用风控的背景


1. 网商贷(经营贷款)

我国小微企业主要是民营企业和私有企业,他们的特点是体量小但数量庞大,整体面临融资困难的问题,尤其是受疫情影响,融资更为困难。因此向小微企业发放贷款是稳就业、稳民生的一个重要举措。网商贷是蚂蚁集团面向小微企业发放经营贷款的一个很重要的产品,这其中信用风险管理又是最核心的部分。从整个产品的生命周期来说网商贷分为贷前、贷中、贷后三部分。

(1)贷前 :主要对企业的风险进行初步评估,进行准入判断和授信额度的确定;准入 :通过评估小微企业的信用风险决定是否发放贷款;授信:确定贷款的额度和利率。

(2)贷中 :主要是进行支用还款;根据支用和还款情况进行调额和调利率,还会根据支用异常情况进行拦截。

(3)贷后:主要对出现逾期的客户进行催收。

2. 信用风险管理

信用风险管理是一个从数据到模型到策略的复杂链路,从模型角度主要分为:

(1)画像模型:对企业的基本认知与预测,比如经营地识别,行业识等,更复杂的就是企业上下游的关联关系进行预测。

(2)信用模型:对客户风险进行最直接的一个评价,比如不同场景不同客群下的逾期预测模型,以及对客户的风险评级的模型。

(3)反欺诈模型:主要对一些虚假交易和异常交易的识别。

(4)贷后模型:主要是贷后催收。



企业风险管理主要面临以下三个方面的挑战:

(1)客群信息薄:小微企业本身信息缺失,并且客户在支付宝上的操作行为并不是频繁的,用户有效行为的稀疏造成信用风险需求难建模。

(2)强时序拓扑属性:企业间多种关系的拓扑结构对其是否存在供应关系有强区分性,供应关系对风险也有强区分性,交易手法的时序拓扑特性能区分正常、异常交易。

(3)图数据规模大,场景复杂:有几十种图数据,百亿点近万亿边;会有离线处理+在线推理,离线训练+超大规模批量推理等场景。

为了解决以上挑战,打通底层图数据和到上层图应用之间的鸿沟,我们提出了蚂蚁自研的图学习系统 AGL,通过图模型聚合邻居信息增强薄信息客户群表征;同时,提出了挖掘时序拓扑表征挖掘复杂结构模式的多个图算法;另外这是一个工业级的图学习框架,支持海量的数据应用。



--

02/蚂蚁现在使用的图学习算法和系统


1. 算法简介

我们根据工业图结构数据的特性,以及信用风控的特点,探索了多个有普遍增益的算法方向。



2017 年 4 月主要通过 DeepWalk 和 node2vec 算法构建超大规模网络嵌入框架,支持十亿点千亿边,千亿参数规模,在部分客群上有增益。

2017 年 12 月主要以图神经网络学习赋能信用风险业务,主要探索了如何自适应的学习邻居聚合的感知域中重要的路径,通过去噪的方式提出了广度自适应函数和深度自适应函数去去除感知域的噪声从邻居的特征来补全薄信息客群表征。

2018 年开始探索异质网络,主要为了能综合利用蚂蚁不同类型的图网络,主要探索了通用属性异质图表征和多模态异质图表征。

为了解决拓扑动态的高相关性的问题,分别从离散时间和连续时间这两个范畴进行考虑,另外从复杂结构的角度提出了路径感知图神经网络。

2. 系统简介



图数据具有相互依赖和幂律分布的特性,样本与样本之间具有高度依赖性,少部分的节点度数非常大,大部分节点是度数非常少的长尾节点。由于图数据的高度相关性和这种不均衡性导致传统的基于数据并行和 mini-batch 分布式机器学习架构面临较大挑战。蚂蚁集团对于图采样框架与存储引擎,图学习训练与推理框架,图算法框架进行了整合。

图采样框架与存储引擎分为批量预采样,交互式采样,在线实时采样。

批量预采样适用于超大规模的数据,比如几十 T 甚至上百 T 的训练数据规模,这样的规模就很难通过分布式的方式放入外存或者内存中进行计算,蚂蚁采样离线预采样的方式将每个节点的局部子图提前提取供后面训练和打分使用,目前基于 GraphFlat(批处理系统)支持静态子图采样和时序子图采样。

交互式采样适用于数据量不太大的训练,蚂蚁通过轻量图缓存来实现图结构的快速读取,PHStore 实现对特征的高速读取,通过这种边采样边训练的方式相比较于批量预采样方式训练速度为它的 5 倍,计算资源消耗为它的十分之一,存储资源消耗为三分之一,蚂蚁通过图采样器 bandit sampler,将图采样形式化 bandit 问题证明可以逼近最优分布进行采样,从而可以加速收敛。

在线实时采样使用于在线训练和在线打分的场景,GeaBase 和 IGraph 来实现图存储和采样。

以上三部分会通过 GraphFeature 生成统一的图样本规范供上层的训练和推理进行消费。模型训练对图样本解析和图矩阵运算进行了优化,模型推理支持离线和在线推理。

--

03/信用风控应用


1. 信用风控应用基于供应链的小微企业金融分析框架



有这样一个很常见的场景,经销商向品牌商进货需要大量垫付资金,这对小微企业来说资金压力很大,贷款很难,蚂蚁通过采购贷的方式为经销商提供贷款,根据上游品牌商的资质来辅助对经销商的风险惊醒评估,也就是由核心企业进行背书解决信任问题为客户提供贷款,解决客户燃眉之急。



图左上角数据可以看出通过引入上下游可以很好的解决信息缺失的问题,通过左下角的图可以看出客户上下游关系越多,他的风险就越低,如果能很好的获取供应链的上下游关系,就能很好的指导信用风险判断。同业解法一般采用人工 BD 的方式进行获取,但是这种方式成本高扩展慢精度高,但是网商贷面临的是海量的客户群体,很难采用人工的方式,所以蚂蚁考虑供应链挖掘的方式来获取。这种方式成本低、规模化、精度要求高,基于供应链的小微企业风险分析的流程就是在复杂的企业关系图中挖掘上下游供应链关系,然后基于供应链图进行多维度风险分析,由此可见一个精确的上下游供应链关系是至关重要的。

2. 基于路径感知 GNN 的高精度供应链识别



供应链识别可被形式化为链路预测,给定一个起点样本给定一个终点样本,预测这对样本是否存在上下游关系,链路预测主要有以下三种方式:

(1)启发式链路预测 :基于先验假设预先定义企业间的相似度进行链路预测,缺点是泛化性差,很难利用工业界丰富的属性特征信息。

(2)基于网络表征的链路预测 :主要通过学习节点间的拓扑表征计算节点间的相似度进行链路预测,缺点是很难利用工业界丰富的属性特征信息。

(3)双塔结构的 GNN :对起始节点和终点提取局部子图,利用 GNN 的方式进行传播学习然后去预测他们是否有供应链关系。从模型整体来看,是 Propagation-Aggregation 结构,首先 从起始节点开始会对信息进行传播,比如第一步传到一阶邻居,然后 传播到二阶邻居,在传播过程中主要采用 Propagation 算子和 Aggregation 算子对传播路径中的每个表征进行学习,接下来 类似于 GNN 的聚合算子对中心节点的邻居表征聚合形成中心节点下一层的表征,传统的节点表征就是这个节点的特征,蚂蚁的节点表征包括传播表征和节点本身表征,所以就有两类节点,一类 是传播过程的节点他有传播表征和自身表征,另一类传播路径之外的节点只有自身表征。通过聚合算子获取两个节点之间的拓扑关系来进行预测。上图右下角是我们的这篇论文在一些公开数据集和我们数据集上的一个对比实验结果,通过结果可以发现我们的算法在一些图进行复杂的建模过程中能够获得很好的效果。这样我们就能获得一个比较精确的供应链关系。

3. 基于时偏移 GNN 的 GMV 预测



在淘系商户中 GMV(商品交易总额)预测一直作为衡量店铺偿债能力的重要指标,左上角图中蓝线代表店铺的销量,灰线代表蚂蚁授信,从图中可以看出授信额度是有滞后性的,产生这种错配的情况主要由于 GMV 的两个挑战:

① 企业本身数据缺失较为严重:从左下角图中可以看出有大概 30% 的企业缺失性达到 60%。

② 时序偏移性:企业自身的 GMV 是有周期性的,上下游关联企业同样具有周期性。

蚂蚁为了解决这两个挑战提出了 Gaia 模型,如图右上角所示,主要分为特征混合层,时序编码层,时序偏移注意力图神经网络。

特征混合层输入主要有 3 个部分:历史的时序的 GMV 特征;历史的时序的其他特征,比如销量特征、笔数特征等;店铺与时间无关的相对静态的一些特征。特征混合层主要对这些特征进行映射和混合,每个商铺获得不同时点下的时序特征。

时序编码层:用不同长度的卷积和来对原来的矩阵进行卷积,来得到一个和店铺相关的特征矩阵,关系层面引入了以供应链关系为主来构建商铺与商铺之间的关系图。

时序偏移注意力图神经网络:通过对中心店铺邻居的特征聚合来解决数据缺失性的问题,在聚合的过程中会考虑时间变换,比如对于中间节点的时序表征和对邻居节点的时序表征来说,会考虑不同时间点的注意力大小值,以解决平移相关性的问题,通过注意力图神经网络来实现对邻居节点不同时间点的特征的聚合,由此获得店铺的表征来对 GMV 进行预测。

图中右下角是使用MAE、RMSE、MAPE作为衡量指标,将 Gaia 与三类方法进行对比:

(1)单时序预测模型:ARIMA,LogTrans,只使用店铺历史 GMV;

(2)图神经网络模型:GAT,GraphSage,Geniepath,只建模图上的依赖关系;

(3)STGNN 模型:STGCN,GMAN,MTGNN,同时建模时序依赖和空间依赖。

通过数据可以看出 STGNN 模型取得了很好的效果,是有一定进步性的,由此可见时序依赖和空间依赖的重要性,而我们与 STGNN 模型不同的地方会更多的考虑时序的平移相关性,从而保证取得进一步的预测收益。

4. 基于图学习的信用风险评估



信用逾期概率预测可形式化为节点二分类的问题:逾期或者不逾期,基于图学习的信用风险评估最核心的思想:依赖图结构进行风险信息传导。上图是我们在信用风险评估的脉络图,开始主要基于 Network Embedding 的思路进行探索,后来进一步研究了不同类型的异构网络,时序网络,以及一些无标签的对比学习增强学习来进行进一步的补充。

5. 基于时序图学习的信用风险评估



上面我们也叙述了基于供应链关系能够很好的建模企业的上下游关系,上下游信息能够对企业本身的风险有很好的增益;上下游的信息变化、结构变化对企业的风险高度相关;因此我们提出了通过时序图模型来捕捉节点特征和结构特征的变化信息,输入是多个离散时间片上企业的关系图,通过空间聚合算子、时间聚合算子和最后的聚合层进行特征的标称,空间聚合算子 通过类似于 GAT 的方式来对邻居进行自适应的信息加权,得到中心节点在不同时间片上的一个表征,通过时间聚合算子 类似于 LSTM 聚合时间上的信息,最后聚合层会考虑不同时间、空间的聚合机制来得到企业最后的表征进行逾期的预测,左下角是模型结果的对比表,可以看出时序和结构信息都是有效的。



从时间上说有长期信息和短期信息,长期信息刻画的是一种周期性的变化,短期信息刻画的是突变的情况,因此我们提出了长短期建模的时序感知的图神经网络来做信用的评估, 它包括一个静态模型对商户静态特征进行映射,短期编码器进行短期信息建模,聚合的过程中不只考虑当前节点的表征,还会考虑 k 个时间片上的邻居表现去捕捉短期的信息,最后还会通过类似于 LSTM 模型来对长期信息进行建模,进一步我们考虑到不同时间片上会有不同的时间间隔,提出了时间间隔的衰减因子来帮助建模。

上图左下角是数据探查的结果,蓝色代表非逾期用户,橙色代表逾期用户在不同指标下的表现。比如逾期的用户贷款数普遍偏多,逾期的用户贷款频率更高,所以我们需要客户这种时间和空间上的特性来对信用风险进行评估。上图右下角是一个对比试验,通过结果可以看出时间和空间的有效性。



上面主要对离散时间问题进行了讨论,但是有些关系只通过离散时间很难捕捉到动态性,比如转账交易这种高动态的网络,因此我们做了从离散时间到连续时间的扩展来捕捉连续的信息,比如对于一个时间来说它可以以多个时间周期的时间编码去表征,但是考虑到不同用户的时间编码应该具有个性化适应性的,因此编码过程中还会考虑用户自身的表征,通过这种形式获取每条边上的时间编码。

在图神经网络的聚合中会额外考虑两个信息,一个 是这条边的间隔时间的时序编码,通过这种方式将每条边的延续信息引入进去;另一个是上下文信息,不只考虑邻居节点的信息,还会考虑邻居节点的邻居信息。通过这种时序上下文注意力机制去捕捉连续高时序变化的网络特性。上图右下角是比较时序模型,图模型,基于离散时间的时序图模型的效果,来证明对于时序性比较强的模型的有效性。



以上是我们团队发表的一些文章。

今天的分享就到这里,谢谢大家。




本文地址:https://www.6aiq.com/article/1683648002738
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出