Fork me on GitHub

基于“数据-模型-策略-实验”生态闭环的智能风控实践

以下文章来源于 https://zhuanlan.zhihu.com/p/680626074

导读 本次分享聚焦于智能风控领域的生态闭环,在"数据-模型-策略-实验"四个环节形成的闭环中,每个环节又是一个小的生态,也形成各自的闭环,环环相扣。文中将结合奇富科技的业界实践,对智能风控的生态闭环展开深入分析。

今天的介绍主要围绕下面六点展开:

  1. 为什么要打造智能风控生态闭环

  2. 什么是智能风控生态闭环

  3. 智能风控生态闭环的四个环节:"策略-模型-实验-数据"

  4. 基于数据的智能风控框架:以奇富科技毓数平台为例

  5. 基于智能风控平台的闭环建设

  6. 总结

分享嘉宾|雷柴卫 奇富科技 架构师

编辑整理|Sherry

内容校对|李瑶

出品社区|DataFun


01为什么要打造智能生态闭环:生态闭环背景



  • **风控是互联网金融业务的重中之重:**增长、运营、风控是互联网金融业务(以下简称"互金业务")最为核心的三个板块,做好这三方面的工作,互金业务才能实现快速、稳定、持久的发展。而风控作为贯穿整个业务周期的板块,互金公司会投入大量人力、资源去完善风险这一板块。从业务流程上看,风控包括了贷前、贷中、贷后完成的业务流程。其中,贷前主要包括信用评分、反欺诈和风险定价,贷中主要包括管制、调额和预警。
  • **场景的碎片化和融合:**在实际业务中会发现,贷前和贷中有很多碎片化场景。比如信用评分、反欺诈都是很独立的一块,碎片化非常严重,如何将各方面融合使得信贷风险做到最低,是智能风控的探索方向之一。贷前和贷中有各自的侧重点但是也会相互渗透、彼此融合,而且都有在线(online)和离线(offline)的场景,在线和离线的一体化,淡化online和offline的边界,可以使得贷前贷中交易趋同。
  • **服务沙箱,业务快速试验机制:**在实际业务中,业务和场景需要频繁打样,所以急需快速大批量的试错机制。如果应用平台标准化和快速组装闭环不足,会导致业务试错的响应度和敏捷性有较大的偏差。因此,智能风控需要实现应用平台的标准化,以及在系统中的快速组装,以此提高对业务的响应度和敏捷性。

02什么是智能风控生态闭环



  • 奇富科技在智能风控领域的探索 :18 年以来,奇富科技开始打造**"毓数平台"** ,实现了数据平台的大升级。依托于**"毓数平台"**的大数据技术能力,在平台集成了各种AI框架,为大规模训练和推理提供了不同层次的工具,包括特征挖掘、数据开发、策略编写和模型开发等,打造了奇富科技的智能风控。
  • **奇富科技在风控闭环的探索:**奇富科技在 20 年就提出闭环这个概念,经过几年的发展,已经实现了整体闭环的建设,包括策略、反欺诈、特征、AI以及数据的智能场景。在底层数据的支持下,通过AI模型和策略,建立实验平台,将特征、模型、策略,数据串联起来,让业务在具体场景下进行沙箱试错,可以满足 80-90% 的业务需求。简而言之,在数据平台基础上,通过特征、AI 策略、实验实现风控闭环。

03智能风控生态闭环的四个环节"策略-模型-实验-数据"



具体拆解来看,奇富科技主要通过以下 5 个方面实现智能风控闭环。

  • 高并发、高性能的特征服务:
  • 特征变量的异步计算和同步计算。异步计算完毕后无需再同步计算,可以直接使用异步计算的结果。
  • 高效、独立的新增变量补数,面向需求。离线到在线:业务在离线挖掘的特征,可以直接在线配置,在线业务可以直接获取使用。在线到离线:在线使用后,将在线的所有历史特征进行补充,并将其反推给离线。通过独立的补数,实现了在线与离线特征的一致性。
  • 安全、稳定、高效的数据
  • 基于毓数 2.0 高效、安全、稳定的数据,可以实现多人协作、大规模并行的任务同步开发,打造一站式大数据管理、开发、分析平台。
  • 基于价值发现的策略价值
  • 全生命周期的策略管理,包括贷前、贷中、贷后以及反欺诈,都集成在策略引擎平台中。对于业务来说,能够迅速查看大量策略,不仅涵盖了自己的策略,还能在公共策略上进行衍生。
  • 在线、离线一体化的策略引擎:通过将策略分发到离线和在线,实现策略在离线和在线场景下的一致性。
  • 可度量的持续模型
  • 针对在线模型和离线模型的开发与验证进行闭环的建设,实现了模型在线与离线的一致性。因此,在模型上线时,无需再与研发和工程人员反复沟通,模型上线越来越快,且不会存在偏差。
  • 智能化实验分析
  • 智能化分析模型,策略,特征评估体系,包括对模型效果、风险评分、风险定价等各方面影响的评估。
  • 快速、简洁的风控评估体系,从流程到调额,定价等。

04基于数据的智能风控框架



上图是智能风控的架构图,主要包括以下 5 个层次:

  • 应用层:包括信用模型、反欺诈服务、策略引擎、特征服务、实验平台、机器人。
  • 数据/模型:数据包括用户视图和画像、数据仓库,模型包括模式识别、神经网络、回归算法、决策树、社交网络等等。
  • 计算层:提供了各种计算方式,包括离线计算、实时流式、图计算、深度学习等。
  • 存储:各种存储方式在智能风控中均有使用,包括:数据库、分布式文件、NoSQL 等。
  • 采集:是整个平台的基础,为平台提供数据基础。

大数据平台为智能风控的模型开发和大批量离线决策提供了支持。平台也引入了流式计算,满足了风控在大批量跑批过程中高吞吐和实时性的要求。同时,利用知识图谱和深度学习等 AI 技术建立了风险防控和预警体系。风控模型方面,以分布式数据库、图数据库、流式引擎作为基础支撑,为模型的高可用提供了稳定的运行环境。

接下来介绍基于智能风控平台做的闭环建设。

05基于智能风控平台的闭环建设

1. AI 应用闭环



在 20 年前后,我们发现模型上线效率较低,因此提出了建设 AI 应用闭环。

通过 AI 应用闭环的实现,模型上线效率得到了显著提高,上线用时从 1 个月缩短到了目前的小时级别。



在智能风控闭环平台下,打通了在线和离线,将模型验证左移,在离线环境下进行模型的验证,并进行特征闭环(将离线特征和在线特征进行关联,实现特征在线离线一致),关联后进行灰度验证,验证通过后即可进行模型上线。

同时,AI 建模平台也是多元化的,不仅是风控领域,在机器人、投放、运营等众多领域都可以使用。

2. 高效特征开发



拿到数据后,首先是变量配置与管理环节,为特征的抽象与特征的衍生做准备。将无序的特征,根据需要变成有序的值,包括内置衍生维度、自定义衍生维度以及 SQL 衍生。变量配置之后,就要进行真正的衍生,我们采用了多种变量加工方式,包括异步变量加工、实时变量加工、流式变量加工、离线批处理。加工完成后,特征可以作为输入项中,在各类模型和策略中使用,而且不仅仅局限于风控,可以应用到营销等各种场景中。

3. 实时特征处理



实时特征处理包括原始数据输入、预处理、特征组装、存储以及最终的数据输出与应用几个步骤。

  • 数据来源:通过 Kafka、RocketMQ、RPC 实时调用。
  • 预处理:对不同数据源进行抽象,标准化输出供下游进行衍生。包括:数据清洗、数据转换、数据同步、数据融合。
  • 特征组装:SQL 处理(简单转化、分组计算、多表关联)、算子处理(逻辑预算、日期处理、字符串函数)、汇总计算(分布算法、离线、过滤)。
  • 存储:包括 NoSql、MySql、kafka、Hive、API。

4. 一体化的策略引擎



策略引擎包括业务系统、接口层、规则执行、数据存储、服务支撑五大板块。



奇富科技在策略引擎方面也实现了一体化,打通了在线和离线策略引擎和存储。

具体流程为,首先,在策略平台上,完成策略的编辑和策略的配置。然后,在策略引擎中执行,可以实现在线执行和离线执行,离线执行是通过 Spark 去调用实时引擎。最后,执行结果会存在 Hive 或 Kafka 中,并最终存储在在线的 HBase 中。通过策略引擎打通离线与在线,保证了策略在离线和在线中的一致性。

5. 智能化的实验平台



智能化的实验平台,打通在线和离线场景,提高数据结果的可用性。在进行实验分析时,如果全部使用离线分析,无法保证数据与在线数据的一致性,则实验结果不一定适用于当下真实场景。通过打通在线和离线场景,理顺"发现-迭代-验证-衡量"流程,提高了业务分析的效率和准确性。

6. 风控生态闭环



智能风控是围绕着特征、模型、策略、实验和数据,打造闭环生态。每个子板块又是一个小的闭环,环环相扣,实现整个风控的生态闭环。

06总结



在整个智能风控生态闭环的建设中,实现了高效、便捷、安全、创新的金融服务,聚合风控生态和科技云服务。基于 AI、大数据、云计算等技术,通过信用风险、反欺诈、授信等,完成了注册-贷前-贷中-贷后整个的风控流程。

智慧风控就是运用大数据与 AI 等新技术、服务创新、流程创新建设一个从注册到货后的全生态闭环的用户经营生态系统。智能风控通过结合风控经验和数据积累,运用互联网、大数据、AI 和云计算的创新技术,实现了为金融信贷业务赋能。

以上就是本次分享的内容,谢谢大家。



本文地址:https://www.6aiq.com/article/1706612731463
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出