金融风控大厂 10 道精选面试题分享!

问题1:深度学习的风控模型,从经验上看,样本量大概要多少条啊

解析:不同的模型不一样,而且也不光要注意样本量,比如RNN其实希望序列长度至少在12个月以上,粗略的说,样本量五十万以上效果比较好。


问题2:5万正样本,200负样本,B卡,不只是提高额度,会拒绝一部分客户,怎么建模?

5万负样本是没有做下采样的必要的,200正样本无论用什么方法做过采样说实话由于自身携带的信息量比较少,学习的应该也不是完全的。所以这时候建议先略作改动,评价函数加一项,负样本的召回率,也就是说这时候不是主要关注KS,而是对负样本究竟能抓到多少。

然后负样本学习的时候一定要加权,权重就按照sklearn中逻辑回归默认的balanced方法就ok,而且如果是我可能生成一个决策树,把坏账从0.4%下降到0.12%左右我觉得就蛮好的了

文末免费送电子书:七月在线干货组最新 升级的《名企AI面试100题》免费送!


问题3:对短信打标签,也就是判断出短信属于的标签是哪一类,这样一个任务是提取文本关键词的任务吧?

解析:
我建议先确定每个词对每个类别的贡献度。简单来做就是每种类别找几个词,手动划分一下有这个词,就属于这个类别。复杂一点来做,就训练个模型,确定每个词对每种类别的贡献度,然后对每条记录做个预测,排名前几的标签都给他。


问题4:为什么说准入规则,pre-A, 反欺诈规则反欺诈引擎,还有风控模型,一般都不会选用相同的特征?因为客户群体会越来越少么

基本上每个机器学习模型或多或少都会遇到我们这种问题。我们一般是不会用相同的特征做重复筛选的。这样会导致样本偏移更严重。

就是说,被拒绝的人,是由于某些特征表现差,被拒绝的,那随着时间推移,下次建模的样本里面,就没有这些人了...这些这些特征上的样本分布就变了。


给大家分享一个面试秘籍【LintCode直播刷题 - Java版】

课程精炼浓缩Java数据结构与常用面试算法知识点,结合面试真题,做到真正面向面试编程,用最短时间提升算法与数据结构水平,搞定大厂面试。

课程链接:https://www.julyedu.com/course/getDetail/358

在这里插入图片描述
在这里插入图片描述


问题5:在ks上训练集和测试集相差不大,但在auc上却相差较大,这是为啥?

在这里插入图片描述

解析:



下图中两条红线分别表示训练集和测试集KS的差距,看起来两者是差不多的,曲线下的面积表示的是两者的AUC值,很明显两者的AUC差的就很多了,由于ks值能找出模型中差异最大的一个分段,因此适合用于cut_off,像评分卡这种就很适合用ks值来评估。但是ks值只能反映出哪个分段是区分最大的,而不能总体反映出所有分段的效果,因此AUC值更能看出总体的效果。
在这里插入图片描述

解析2
下面详细说明下AIC和KS的关系
在这里插入图片描述

左图是KS曲线,红色的是TPR曲线(累计正样本占比),蓝色的是FPR曲线(累计负样本占比)。由于按照正样本预测概率降序排列,所以排在前面的样本为正的概率更大,但为正的概率是递减的;相反排在前面的样本为负的概率更小,但为负的概率递增。所以KS图中,TPR曲线在FPR曲线上方,并且TPR曲线的导数递减,FPR曲线的导数递增,而KS曲线先上升到达峰值P点(导数为0)后下降,P点对应的C值就是KS值。ROC图中,ROC曲线的导数是递减的,且刚开始导数大于1,逐渐递减到导数为1的T点(T点对应P点),然后导数继续降低。另外,A值对应X值,B值对应Y值,且C=B-A=Y-X

在用KS评估模型时,除了看P点对应的KS值C,还要看P点的横坐标F值的大小,F值表示的是将分数从低到高排序后的累计样本占比,F值越小,说明模型对正样本的预测越精确,也就是说在识别出正样本的同时也能保证对负样本更小的误杀率。

假设F值不变,C值增大,即P点沿着垂直方向向上移动,那么A值应该减小,B值应该增大;对应地,X值减小,Y值增大,T点会向左上角移动;所以ROC曲线下方的面积会增大,也就是AUC值增大。

假设C值不变,F值减小,即P点沿着水平方向向左移动,因为C=B-A,所以A和B减小相同的幅度,也是就说X和Y减小相同的幅度,即T点沿着斜率为1的切线方向向下移动,此时ROC曲线下方的面积也会增大,即AUC值增大。

所以P点的位置决定了T点的位置,C值和F值均会影响AUC值。AUC值看上去更像一个综合评估指标,但缺乏对模型细节的评估。而KS值结合F值,可以评估每一段评分的效果,还可以找出评分切分的阈值等。

参考解析链接:
https://zhuanlan.zhihu.com/p/56175215


问题6:请简单说下金融风控的架构知识?


在这里插入图片描述

帮助数千人成功上岸的《名企AI面试100题》书,电子版,限时免费送,评论区回复“100题”领取!

本书涵盖计算机语⾔基础、算法和⼤数据、机器学习、深度学习、应⽤⽅向 (CV、NLP、推荐 、⾦融风控)等五⼤章节,每⼀段代码、每⼀道题⽬的解析都经过了反复审查或review,但不排除可能仍有部分题⽬存在问题,如您发现,敬请通过官⽹/APP七月在线 - 国内领先的AI职业教育平台 (julyedu.com)对应的题⽬页⾯留⾔指出。

为了照顾⼤家去官⽹对应的题⽬页⾯参与讨论,故本⼿册各个章节的题⽬顺序和官⽹/APP题库内的题⽬展⽰顺序 保持⼀致。 只有100题,但实际笔试⾯试不⼀定局限于本100题,故更多烦请⼤家移步七⽉在线官⽹或 七⽉在线APP,上⾯还有近4000道名企AI笔试⾯试题等着⼤家,刷题愉快。

在这里插入图片描述


本文地址:https://www.6aiq.com/article/1631558254736
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出