eBay | 图神经网络在支付风控中的应用

分享嘉宾：闵薇@eBay 编辑整理：郭磊出品平台：DataFunTalk

导读： 随着eBay全球支付管理系统的推广，为其保驾护航的支付风控体系在保护用户资金安全，防止盗卡盗号，减少平台损失方面起着至关重要的作用。而传统的算法不足以解决具有关联信息的图网络数据，依赖于GNNs的发展，使得大规模的图数据在风控场景下有了更好实践，对各种各样的团伙欺诈具有更加行之有效的防御。

01 支付风险介绍

1. 交易流程中的风险评估

用户在eBay上从注册账户到完成商品购买行为的背后，涉及到非常多的风险评估，从交易发生的时间序列看，包括以下几点：

交易前，用户注册是否为恶意水军集中注册、登录时是否有账户盗用
交易中，是否存在盗卡盗号等平台端的风险评估以及卡组织对卡主信息的核检
交易后，还有账户级别的风险识别模型，用于评估账户的风险程度

2. 电商风控欺诈风险

在电商风控的场景中，主要捕获以下四种欺诈风险：

买家盗号盗卡风险
卖家欺诈造假风险
买卖双方勾结作案
违禁品交易，洗钱等法律合规风险

eBay作为全球跨境电商每时每刻都面临着非常复杂的交易风险。为了处理这些风险，eBay建立一套高效且智能化的风控体系，打通取数、算数、决策、执行的系统链路。为了保证交易风险的有效识别，通过使用各类用户宏观和微观数据，包括历史交易数据、用户行为数据、各类日志数据以及第三方提供的黑名单、设备指纹、LBS等数据，使用各种计算框架，包括批处理、流处理、图计算等计算平台，把各类原始数据加工成具有风险意义的特征变量，用于机器学习模型训练和风险规则决策。风险评估的决策结果会触发交易是否会通过、是否需要专业人士进行评估等自动化行为。整个流程也会有日志、监控体系以保证业务部门的商业分析和决策，保障风险模型及其规则的优化和持续迭代。可以看到，在整个支付风控体系中构建高精准的风险决策系统是整个智能化交易风险平台的核心。

4. 用户盗号风险实例

以买家盗号风险为例，盗号是指欺诈分子通过撞库钓鱼等方式登录正常用户的账户，利用账户绑定的卡信息进行交易的行为。根据有监督建模的流程，首先会依据ATO场景的特点，定义和提取有效变量和表现标签；其次，由于好坏样本在欺诈场景中是不均匀的，需要对样本进行数据采样；然后，使用lightgbm这类高性能boosting tree来训练；最后，将训练好的模型部署到平台上，对交易风险进行实时评估与决策。

从模型的效果来看，基于这种传统的机器学习模型通常对个体的风险预测具有较好的预测能力，但在实际的风险场景有些许不足。基于专业的调研机构发现，在支付场景中有10%到30%的风险来自于团伙欺诈，在ATO场景下更是超过50%的风险来自于团伙作案。而传统的机器学习模型对于团伙的风险预测是存在一些挑战。首先，传统监督学习对每个样本是独立对待的，缺乏有效方法处理样本之间的关系。其次，IP、支付工具、设备指纹等非结构化数据也难以在机器学习模型中有效处理。基于这些挑战，eBay在已有的风控引擎基础上构建图算法，以此来增加对于团伙的风险识别，通过叠加各类关联数据，利用无监督和半监督的方法可以更好的识别高风险的团伙以及挖掘未知的风险模式。

02 基于图的风险管理

1. 图风险案例

在本案例中，许多用户使用同一张卡进行交易，每个用户使用的开户信息如邮箱、电话号码等为正常信息，并且也没有命中当时系统中短期高频等风险规则，所以当时的风控系统对这些交易评估为正常。但是在交易完成之后的一个月内，这张卡关联的交易都被申请了未授权扣款，对此eBay要损失承担相应的损失。当这张卡被列入黑名单之后，我们发现这个欺诈组织又使用了第二张卡、第三张卡，且出现相同的模式：关联了大量的用户、具有相同的购买行为，使用相同的卡信息，且随后这些交易都爆出大规模的未授权扣款。基于eBay的调研，这是很典型的三角作案：欺诈分子利用人们贪小便宜的心态，在其他购物网站发布大量便宜的商品，从而吸引大量用户进行正常的购物。当欺诈分子收到钱后，会转向eBay，利用用户的正常信息在eBay下单，使用盗用的信用卡进行消费，eBay会发货给这些用户。如果是正常交易，eBay将没有任何损失，但是对于此三角作案，作为潜在第四方——被盗卡者，当他发现信用卡被盗用后，会立即向银行申请未授权扣款，这就造成平台方的经济损失和名誉伤害。

上述案例如何避免呢，在eBay的解决方案当中，通过使用图的一系列方法增强对这类团伙欺诈的识别。首先，针对海量交易流水，构建亿级别的关系网络。其次，在这个大的关系网络上，以有风险的账户作为种子，使用图的局部社区发现算法，找到每个风险种子的局部社区，并将所有的风险社区合并构建成一个高风险密集的子图，此举完成了从大图到小图的瘦身过程。在小图中利用图神经网络，对未知账户的风险程度进行预测，然后再根据每个社区的风险密度排序，最终可以从海量的交易数据中获得风险程度较高的社区，此时的风险密度将有几万倍的提升，有助于更好定位风险。

2. 现有模型在团伙欺诈识别中的不足

在传统的预测模型当中，是提取每一条交易的风险特征后，使用决策树或者集成学习等有监督模型进行预测，但是却忽略了交易与交易之间的相关性，比如在交易中，使用相同的信用卡、IP地址、UA等信息，这类模型并不能很好的学习这种关联信息。

而一些传统的图算法，如personal pagerank去学习每个节点被风险种子的风险传播程度，或者是基于图嵌入等利用随机游走的算法如deepwalk/node2vec，这些仅仅使用的是图拓扑结构，却没有使用节点的风险属性。对于深度学习如卷积神经网络、循环神经网络，他们是在一个固定网格数据或者固定序列数据当中进行学习。虽然传统深度学习对欧式空间距离的学习是有效的，但是作为图这种特殊的非结构化数据，这类方法也不太适用。因为图有非常复杂的拓扑结构，且节点之间也没有顺序之分，所以对于图结构数据，GNNs是非常好的模型学习框架。

3. 为什么GNNs有效

在每一层GNN中，通过定义目标节点的计算图，也就是它的邻居节点，保障了节点之间的关联性。其邻居信息通过各种各样的聚集方式，传递给当前节点，且不断更新迭代。

从数学的角度来看，将会有更直观的感受：初始层的embedding可以看作是节点的原始特征，第k层当前节点的embedding是，对其邻居节点的前一层embedding取均值和该节点前一层embedding加权求和后，使用激活函数进行非线性变换，以此来更新当前节点的embedding。经过K层之后的不断迭代，获得更好的表达能力。由于每一层的权重W和偏差B都是可学习的，GNNs的归纳学习能力使得该模型在新的图当中对于没有遇见的节点可以进行有效的推理和学习。

4. GNNs落地的挑战

当GNNs应用到大规模的风控场景中，会遇到很多实际问题的挑战：

GNNs的层数太浅：GCN/GraphSage等一般堆叠 2、3层，当层数过多后，会出现过平滑问题。但是类比CNN，随着网络深度的增加会增加模型的容量和表达能力。

GNNs在全图训练上的限制：受限于batch learning的训练方式，使得大规模图的训练也受到影响，包括硬件限制以及学习效率低下等。

现实数据多数是异构图：在构图的过程中，很多的图算法都是作用在同构图上的，但是在风控场景下以及很多现实的应用当中，关联关系都是通过异构图来表现的。

模型是需要可解释的：在风控场景中，需要我们的模型是具有可解释性的，这样业务人员才能依赖模型做出有效的决策，进而从模型中学习到新的策略。

风险是动态演变的：在风控场景中欺诈的演变随着时间的变化是非常快速的，所以动态图的引入可以提高风险的识别效率。

5. 欺诈检测框架：xFraud

eBay提出的xFraud欺诈检测框架的主要分为Predictor和Explainer两个部分。前者在异构图网络当中构建高效的欺诈检测模型，后者则生成易理解的行为特征和欺诈团伙形式用于解释模型。

Predictor主要分为以下三个部分：

① 采样机制

对于异构图的采样方式，对比了GraphSage和HGSampling。因HGSampling在采样过程中需要考虑节点类型，且按照节点类型进行同比例采样，这无疑增加了模型训练过程中的开销。所以xFraud最终使用GraphSage的采样方式通过mini-batching来训练模型，从而提升采样效率。

② 节点类型编码

对节点类型进行编码，学习节点类型自身的embedding，不同的节点类型之间可以共享权重参数，这也是xFraud比HGT训练更快的原因之一。最终将节点类型的embedding和节点特征embedding拼接一起供下游任务使用。

③ 采用attention机制

借鉴于Transfomer的实践，使用attention机制用来学习边的权重，在这个过程当中也使用了多头的机制，以此来控制随机因素。

6. GNN Explainer

Explainer的核心要点在于：图解释器直观的理解是，如果除掉某些节点或者节点特征时，模型预测的得分与全图预测的得分差异很大的话，则表明丢掉的节点或节点特征是非常重要的。由于要尽可能找到最小的子图和最小特征集合，使得预测的得分和全图预测的得分差异最小，在整个优化方法上，还需要对Explainer的损失函数加入节点特征熵和边的熵来对结构进行正则，以此来筛选出最小的子图结构和节点特征集合。

7. 动态图拓展到异构图

在交易场景中，风险是随着时间动态变化的，所以对于时间信息的处理是非常重要的。在传统的动态图训练中，每个时间切片是反映当前时间点的结构静态图，然后通过attention机制学习不同时间切片之间的相关性。在这个过程当中，通过时间切片构建的静态图本身就具有很大的规模，多个静态图的一起训练也对大规模图神经网络训练提出了挑战。

eBay提出把时间信息作为时间边来链接在不同时间切片上出现的实体，从而组成结构子图和时间子图的异构图结构。从而能够有效的解决传统动态图上的问题。其优势在于：

在节点之间构建时间边以表示动态属性，并且能够在现有的异构图算法框架得以训练。
与传统动态图构图方法相比，丰富了图数据模型的信息含量。

8. 图神经网络模型的工程化

“ML code is magical but small part of the whole ML system” 。同样对于图神经网络的落地也是需要考虑很多实际的问题：譬如，线下训练如何对大规模图进行切分并且能够最大程度上保证子图的连通性；图切分后如何高效搜索子图节点特征；图的采样方式如何抉择等等。在线上的挑战则会更大，特别是在支付场景中，需要在百毫秒内，使用高性能图数据库搜索子图，然后计算和获取节点特征，合并生成带特征的子图后给GNN模型进行实时推理，每个环节的实现都是非常有挑战性的，需要我们认真考虑。

今天的分享就到这里，感谢谢谢大家。