特征的含义?
特征可以说是风控系统中的最小单元
,是风控工具的重要组成部分,我们也可以理解成变量。不过叫什么问题不大,团队内有相同的共识就行。
风控特征
是我们做数字化线上风控中的重要组成部分,几乎可以说没有风控特征我们将无法制作模型,无法指定策略,无法指定预警规则,无法测算额度,也就是说,风控特征是我们进行一切线上化风控的前提。
那么特征有哪些呢?
我们来稍微举几个例子,年龄、性别、年收入这些都属于特征,而这些特征我们需要给予他们对应的类型。从变量分类的角度来分类,可以有int、long、double、string、boolean等类型。但我是设计成了数值型(普通数值型/汇总数值型)、字符串型和枚举型这三种,做了一层归集和删减。
但是,无论采取哪种分类方式,后续的设计能够闭环即可。
To C 信贷业务风控特征数据源
对于银行业来说,根据个人信贷用途的不同,可以将 To C信贷业务分为个人购房贷款、汽车贷款、留学贷款、助学贷款、个人消费贷款、个人经营性贷款等。我们这里指的 To C 业务主要是指个人消费贷款及以个人为授信主体的个人经营性贷款,这其中可以使用到主流风控特征数据源包含以下几个维度:
数据源 | 说明 | |
---|---|---|
人行个人征信 | 中国人民银行 | 包括报告头、个人基本信息、信息概要、信贷交易信息明细、非信贷交易信息明细、公共信息明细、其他标注及声明信息、查询记录 |
个人征信 | 百行征信、朴道征信 | 信用明细信息、授信明细信息、查询记录、特别关注名单等 |
多头 | 百融、同盾 | 多头借贷信息、借贷意向信息、借贷行为信息、特殊名单等 |
司法 | 汇法、法海、中数 | 司法详情、严重违法、执行公开信息、失信老赖名单等 |
反欺诈 | 腾讯 | 腾讯反欺诈分 |
SDK | 极光 | APP安装卸载、使用情况等 |
银行流水 | 银行内部数据 | 收入金额、支出金额、账户余额变动、现金交易金额、全部交易金额、工资奖金金额、投资理财交易、转账类交易信息、贷款还款信息 |
To B 信贷业务风控特征数据源
To B 信贷业务由于企业资金需求相对大于个人,一直以来都是银行业信贷类业务收入的大头,但授信金额大也伴随的较高风险,因此需要更为专业的风控手段来抵御风险事件的发生。对于线上化产品来说,线上化自动审批并不适用于所有 To B 信贷业务。
对于小微信贷业务来说,其风险很大一部分的来源都是法人或实控人,因此与个人信贷业务更为相近,比较适用线上化自动审批来进行快速决策,这样可以大大缩短客户从进入银行到最终拿到贷款的时间。
但对于大额公司信贷来说,由于大公司的个体差异的比较大,风险事件也更为复杂,因此很难通过数据来归纳并直观判断客户的风险水平。
针对 To B 信贷业务,市面上比较主流的风控特征数据源涵盖以下几个维度:
数据源 | 说明 | |
---|---|---|
人行企业征信 | 中国人民银行 | 实际控制人信息、信贷交易提示信息、非信贷交易及公共信息、未结清借贷交易汇总信息、已结清借贷交易汇总信息、负债历史汇总信息、还款表现信息 |
工商信息 | 企查查、天眼查 | 企业经营异常、企业历史变更、企业对外投资信息等 |
税务数据 | 税务局 | 企业基础信息、企业申报信息、增值税申报信息、欠税信息等 |
发票数据 | 百旺 | 发票票面信息、开票频次、开票状态等 |
水电费 | 公共信息 | 企业水电煤气费等公共信息 |
银行流水 | 银行内部数据 | 收入金额、支出金额、账户余额变动、现金交易金额、全部交易金额、工资奖金金额、投资理财交易、转账类交易信息、贷款还款信息 |
规则管理
了解规则是由特征、逻辑运算符、比较运算符、阈值和触发结果组成,以及规则其实是在处理条件语句的本质之后,那么前端设计就万变不离其宗了
上图就是规则管理的部分页面内容,其中比较重要的功能是规则测试。规则测试主要面向对象是业务和测试人员。
- 业务人员:能够就配置的规则,立马知道规则执行是否有问题。
- 测试人员:上文说过特征来源可能是自有数据,也有可能是供应商的数据。规则的测试分为取值正确性和规则逻辑性验证。规则测试主要解决规则逻辑性验证,确定好这部分正确后,就可着重对取值进行验证,在规则的验证过程中有的放矢
特征计算平台 Feature Store 简介
在大型金融机构中,由于组织架构较为复杂,不同条线之间往往存在重复造"轮子"的情况,建模人员加工的风险特征仅仅在某个产品上进行使用,不同机构条线间缺乏对风控特征的共享,因此,需要一个统一的特征管理平台,来规范特征的衍生、存储、使用及更新迭代管理,特征平台 Feature Store也因此应运而生。
对于特征平台的能力与边界,各家定义略微不同,《Feature Stores - A Hierarchy of Needs》,文中将特征平台的能力分为以下几个层次:
- 特征管理:特征抽取、处理、存储、元数据管理,以便于特征溯源、分享和复用;
- 特征消费服务:为线上部署的模型,提供高吞吐、低延迟的特征获取能力;
- 离线/在线特征一致性保证:避免 Training - Serving Skew问题导致模型效果劣化;
- 便利:易用、简单的交互和API;
- 自治:特征回填、数据质量监控、联动模型效果评估等。
总结
本期重点介绍一下信贷风控特征市面上的主流数据源和基于这些数据源所构建的特征平台 Feature Store。
参考来源:https://zhuanlan.zhihu.com/p/554201480、https://news.sohu.com/a/718419262_114819