信贷模型域——智能风控建模业务与数据

摘要

本文全面深入探讨了金融智能风控建模,涵盖评分卡建模原理、零售信贷业务与风险管理、数据基础及特征工程等关键领域。首先阐述模型的系统性理解,涵盖机器学习、数据挖掘、数据分析与统计分析等多领域知识,强调其在风险模型构建中的重要性。接着聚焦零售信贷业务,详细分析产品特征、业务流程、信用与信用风险管理,为建模提供业务背景。数据基础部分,从数据的系统性认识、基本特征、常见问题到质量诊断,为模型构建提供数据支撑。最后,深入探讨特征工程在信贷风险特征引用中的应用,包括数据处理、特征预处理与转换、提取与生成、评价与降维等环节,助力提升模型效果与质量。

1. 评分卡建模原理

1.1. 关于模型的系统性理解

模型是对现实事物或事物运动规律的抽象。模型可以是概念性的思 维模型,例如管理学领域的PESTEL模型、SWOT模型、BOSTON矩 阵、GE矩阵等,它们提供了思维的范式。模型也可以是刻画事物运动 规律的量化模型,例如数学、物理、化学、计算机和工程科学中各类理 论公式,经济学领域生产供给模型,以及金融学领域的风险计量、资产 定价等各种理论。模型是向人们提供世界运动规律的范式(公式)。

在量化分析领域,有一句经典名言:"所有模型都是错的,但有些 模型是有用的。"在自然科学史上,有很多模型符合当时的观测结果和 认知,能解释和预测很多事情,用处颇多,但后来被证明是不准确甚至 是错误的。 具体到风险和金融领域,虽然所有的模型都是有缺陷的,但是不影 响使用,我们只需要确保正确地构建和使用模型。对于风险模型而言, 错误的建模和错误的使用方法本身就是"风险"。

1.2. 机器学习

机器学习是一门人工智能科学,研究如何在经验学习中改善具体算 法的性能。机器学习的核心是通过算法来学习和提取数据中的隐含规 律,随着数据丰富程度和学习次数的增加,学习的目标函数的效果会持 续提升。机器学习算法体系包括监督学习、非监督学习、半监督学习、 强化学习等。

1.3. 数据挖掘

数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中提取隐 含在其中,人们事先不知道但又有用的信息和知识的过程。 数据挖掘的关键词是"隐含""事先不知道""有用的"。如果一个模型 规律是已知的、预定义的且确定的,仅仅是通过数据来校准,则不属于 数据挖掘范畴。

数据挖掘的对象按信息存储格式可分为:

  1. 结构化数据,通常以 二维表方式存储数据,如关系数据库、面向对象数据库、数据仓库;
  2. 半结构化数据,以标记语言存储的数据,如XML、JSON、HTML等 存储的数据;
  3. 非结构化数据,如图像、语音、文本等。

数据挖掘包括聚类分群、分类识别、回归预测、关联分析、异常检 测、时间序列等,而基础数据的处理等数据工程工作和可视化、最优 化、预定义模型等则不属于数据挖掘。

1.4. 数据分析

1.4.1. 数据分析的定义

数据分析是一个相对宽泛的概念,我们分别从狭义和广义的角度进 行介绍。

  1. 狭义角度:基于数据,按照特定分析思路和框架,提取有价 值的信息。狭义的数据分析可以基于建模、基于指标计算,也可以基于 数据可视化报表。
  2. 广义角度:还包含数据工程和数据处理,例如定义数据模 型、数据架构、数据处理,写SQL计算指标等。 通常来说,数据分析仅指"分析",不含"处理",也不含"工程",数 据分析的核心本质是从数据到信息、从信息到决策的过程。

1.4.2. 数据分析的思维模式

数据分析的思维方式有两种,下面分别进行介绍。

  1. 自下而上的数据驱动。获得数据后,从数据出发,分析并挖 掘有用的信息,用于辅助决策。
  2. 自上而下的问题或目标驱动。在业务上发现特定问题或制订 特定业务目标,需要通过数据挖掘背后原因,支持决策依据,形成行动方案。

1.4.3. 数据分析与数据运营的联系和区别

数据分析和数据运营都是通过数据来支撑业务需求的。数据分析相比于数据运营是一个更大范围的概念,倾向于强调分析技术的方法属性,关注分析过程以及分析所带来的价值,例如辅助决策。 数据运营关注具体的行动执行和运营过程,更强调业务属性,面向特定业务场景中具体的运营问题,例如用户运营、产品运营、流量运 营、内容运营等。

1.4.4. 数据分析与数据工程的联系和区别

数据分析更关注分析,虽然很大一部分工作是和数据处理、指标计 算相关的。 数据工程更关注工程角度,例如数据模型定义、数据库管理、数据 体系架构等,更关注数据如何通过管理和逻辑设计提高系统性能,以便 提供基础设施的建设和运行保障,满足业务运营和数据分析的需求。

1.4.5. 统计分析

统计分析属于传统学科,与概率论和数理统计密不可分,通常数据 都是带有随机因素的,通过数据揭示事物规律。统计实验设计也属于该 范畴。 统计分析按照层次可以分为:

  1. 描述性统计,揭示数据分布规律 以及数据的统计可视化;
  2. 诊断分析性统计,包括参数估计、假设检 验、回归模型、逻辑回归、相关分析、主成分分析等。

统计思维通常基于特定假设(而后还需要进行假设检验),例如样 本独立同分布、服从正态分布等。统计分析适合小数据量问题的分析, 是统计机器学习的理论基础。

1.4.6. 四者之间的联系与区别

  1. 统计分析为机器学习、数据挖掘、数据分析提供了分析的工 具、方法和手段。
  2. 机器学习可以基于统计分析,也可以不基于,例如人工智能的 符号主义和连接主义、决策树模型就不是统计类模型(虽然用到了统计 计数,但和回归模型有本质区别),神经网络模型也不是统计类模型。
  3. 机器学习是数据挖掘的工具,数据挖掘是机器学习的应用。机器学习更强调底层技术,数据挖掘更贴合业务;与此类似的概念还有自 然语言处理与文本挖掘。
  4. 数据分析可以基于统计分析,也可以不基于。统计分析只是数 据分析的一部分,只要是能够提供基于数据提取信息形成决策的,都属 于数据分析,例如基于业务指标报表的分析等。

1.5. 评分模型与评分卡模型

评分模型:通过量化建模输出的具备一定的预测性和排序性的评分被称为评分 模型。评分模型最终输出一个评分,但不一定输出评分卡,例如基于 LightGBM的评分模型预测的违约概率(Probability of Default,PD)和 异常检测中的LOF指标评分,二者都不能输出评分卡,但可以输出最终 评分,且评分具有预测性和排序性

评分卡模型:评分卡模型可以通过量化建模产出评分卡,评分卡给出各评分维度 的分值。评分卡模型按建模方式分为专家评分卡模型和数据驱动评分卡 模型两种。

1.5.1. 评分卡模型的分类

评分卡模型本身是通用的工具,结合不同的应用场景,会有不同的模型考虑因素,按照不同的标准有不同的分类。 评分卡模型主要分类维度如下。

  1. 应用阶段:贷前、贷中、贷后、催收等。
  2. 业务场景:信贷风险管理、营销管理、客户运营等。
  3. 开发方式:专家评分卡模型、数据驱动评分卡模型。

1.5.2. 评分卡模型的适用性

按照产品和业务标准化程度,从 最难标准化的对公贷款,到最容易标准化的信用卡业务的排序。

因为评分卡建模对数据量有较高要求,所以它更适用于以下3个方 向。

  1. 较标准化的业务,例如个人贷款。
  2. 充分的业务量和数据量,这样才可以训练出有效的模型,例如信用卡业务量较大,积累了丰富的数据。
  3. 对运营效能和实时性有较高要求的业务,例如在线消费贷实时审批等。

1.5.3. 评分卡模型的价值

下面对评分卡模型和专家规则进行比较。相对而言,评分卡模型在 客观性、一致性、效率产能、知识经验可传承性、统一管理控制方面具 有优势,具体比较结果如表所示。

评分卡模型在金融领域应用广泛,表1-4所示是评分卡模型在信贷 风险管理、营销管理、客户管理、运营管理中的应用。

1.6. 评分卡建模全流程

1.7. 评分卡模型的评价

对评分卡模型的评价分为技术性评价和业务性评价两个角度

2. 零售信贷业务基础和风险管理

与其他领域的预测建模相比,金融风险建模有其特殊性,要求风险 建模分析师对金融业务,特别是金融风险有深入的理解,包括但不限于 对产品特征、信贷政策、业务流程、风险特征等的理解。

2.1. 银行零售信贷产品的产品特征和业务流程

银行零售信贷业务的分类如下。

  1. 从参与机构来看,包括传统商业银行、商业银行信用卡中心、 持牌消费金融机构、汽车金融公司,以及近几年出现的互联网金融信贷 机构。既包括提供资金的资金端机构,也包括贷超、导流和助贷类机 构。
  2. 从产品形态来看,除了传统的个人贷款和信用卡外,也包括消 费金融贷款、虚拟信用卡和信用卡代偿等形态。
  3. 从业务渠道来看,既包括自建传统线下渠道,也包括自建线上 渠道,以及合作商户、电商导流、贷超导流等合作渠道。
  4. 从信用方式来看,既包括传统抵/质押,也包括纯信用类产品 (信用消费贷款、信用卡等),而且随着业务线上化和银行数字化转型 的推进,信用类产品占比将会越来越大。

各类零售信贷产品的产品结构和业务流程各有不同,评分卡模型以及风险策略构建过程必须充分考虑这些差异,在业务层面做好顶层设计。

零售信贷产品主要包括个人贷款(含消费贷)和信用卡,这两大类零售信贷产品又包含多种细分产品,各种产品特征和产品条款存在较大差异。

2.1.1. 个人贷款

个人贷款面向的是符合贷款条件的自然人,用于生活消费或生产经 营的各类贷款,包括房贷、车贷、个人消费贷、个人经营贷,以及信用 卡业务中大额分期业务等。 个人贷款的主要特征是贷款品种多、贷款用途广、贷款便利、还款方式灵活。

个人贷款产品可以从不同维度进行分类,如图所示。

图所示的产品分类对于建立评分卡模型时进行模型细分有指导意义,这些分类维度也是信用风险的主要驱动因素,进行评分卡建模时需要重点关注。对于各类细分产品,其市场参与方、产品分类、担保方式的情况如表示。

个人贷款产品要素:个人贷款产品要素是贷款产品的关键特征,对于每一笔贷款,这些 产品特征会体现在贷款合同中,产品要素如下:

上述产品要素也是风险策略构建需要考虑的关键因素,例如在准入 环节,需要制订授信额度策略和风险差异化定价策略。在银行展业过程 中,也应当根据借款人的实际情况,主要是现金流情况以及风险等级, 提供适合的贷款期限、还款方式、首付条款等。

2.1.1.1. 个人贷款业务流程
2.1.1.2. 前端渠道营销获客

零售信贷业务开展的起点即前端获客渠道,获客方式即进件渠道有以下4种

  1. 自有线下渠道:通过银行网点的柜台获客,或客户经理线下拓客。
  2. 自有线上渠道:主要包括网上银行、手机银行、微信银行等。
  3. 合作商户渠道:主要对于消费贷和信用卡,通过业务场景合作 商户进行获客。
  4. 线上导流渠道:主要是与线上流量提供方开展合作,包括互联 网公司、贷款超市、助贷机构等。

建模时需要考虑渠道差异,即不同渠道客群风险特征差异以及不同渠道可用数据差异。

2.1.1.3. 申请受理与贷前调查

借款人提交贷款申请,填写必要的申请信息,同时一般银行会要求 签署"征信查询授权书"等文件。银行收到申请后会展开贷前调查,对个 人贷款申请内容和相关情况的真实性、准确性、完整性进行调查核实, 并形成调查评价意见。

线上渠道和线下渠道的调查方式不同。线下渠道获客一般由客户经 理对借款人身份及其提交材料的完整性和真实性进行确认,通常需要借 款人提供学历证明、婚姻证明、收入流水证明、社保公积金证明等材料,对于经营贷等产品,还需要提供必要的贷款用途支撑证明材料。

线上渠道获客包括两种形式,线上获客线下受理和线上获客线上受 理,这里重点介绍线上获客线上受理的流程。线上受理首先通过人脸识 别、活体识别证照比对、三要素四要素验证等技术手段对借款人的身份 进行确认,并检查材料的完整性,之后通常会联机查询人行征信、第三方外部数据,以及行内借款人信息(如有)等。2020年5月9日,银保监 会出台《商业银行互联网贷款管理暂行办法》,对线上业务做出了相应的规范和规定。

贷前调查的方式应以实地调查为主,间接调查为辅,包括现场核实、电话照会以及信息咨询等途径和方法。贷前调查的内容包括但不限 于以下内容:借款人基本情况、材料一致性、借款人信用情况、借款人 收入情况、对外负债授信担保情况、借款用途等。 贷前调查的重点是核验工作,完成信息收集以及信息核验,确保满 足基本准入条件,保证申请材料的完整性和真实性。贷前调查也会有一 定的评价性工作,但更多是为中台授信部门提供参考和依据。

2.1.1.4. 贷前审查与贷款审批

贷前审查和贷款审批基于贷前受理和调查环节收集的信息进行贷款 决策。 贷前审查是对贷前调查内容的合法性、合理性、准确性进行全面审 查,重点关注贷前调查人员的尽职情况和借款人的偿债能力、诚信状 况、担保情况、抵质押情况、风险程度等,贷前审查应起到审计功能, 确保提供给后续审批环节的材料的准确性。 贷款审批是核心决策环节,包括组织报批材料、审批、提出审批意 见,业务部门根据贷款审批人的审批意见进行后续工作。贷款审批分为 单人审批、双人审批、多人审批。初次审批意见可能是"同意"或"否 决"。对于审批意见是"否决",且申报机构(部门)认为有充分理由 的,可以提请复议。申请复议时申报机构(部门)需要针对上一次审批 提出的否决理由补充相关资料。对于提请复议的业务,申报及审批流程和初次申报审批相同。 对于大型银行,贷款的审查和审批一般都由信贷审批中心负责。 完成贷前审查和贷款审批后,贷款审批部门签署审批意见,审批表 连同有关材料退还业务部门。银行信贷审批需要严格遵守"审贷分离"制度,即前端业务和审查审批部分职能分离,这也是银行业务内控的要求。

2.1.1.5. 贷中签约与支付发放

在信贷审批部门同意贷款后,由前台业务部门推进后续签约流程。 贷款人应与借款人签订书面借款合同,需担保的应同时签订担保合同, 贷款人应健全合同管理制度,有效防范个人贷款法律风险。贷款签约主 要流程包括填写合同、审核合同、签订合同。 在完成合同签约后,进入贷款发放流程,贷款人应加强对贷款发放 的管理,遵循审贷和放贷分离的原则,落实贷款发放条件,发放满足约 定条件的个人贷款。借款合同生效后,应按合同约定及时发放贷款。在 贷款发放前,应落实贷款发放条件,然后划付到约定账户。

2.1.1.6. 贷款回收与贷后管理

贷款发放后,借款人应当按照合同约定的还款计划按时、足额履行还款义务,银行按时执行贷款还款划扣和回收。 银行贷后管理主要内容如下。

  1. 贷后检查与持续地贷后资产监控预警,以及必要的贷后尽调。
  2. 贷款风险分类和不良贷款管理。
  3. 合同变更管理。
  4. 贷款档案管理。
  5. 押品管理。

其中贷后检查是以借款人、保证人、抵质押物为对象,通过客户提 供、访谈、实地检查、行内查询等途径获取贷后信息,对影响贷款资产质量的因素进行持续跟踪调查与分析,并采取相应的风险防控和补救措施,从而判断贷款的风险状况,提出相应的事前预防、事中预警、事后补救措施。

2.1.1.7. 逾期催收

逾期催收属于贷后管理,但因为具有特殊性,一般单列出来。 逾期催收是指借款人未能按照合同约定的还款计划履行还款义务 时,银行通过短信、电话、信函、上门、委外、诉讼等方式对欠款进行 催缴。催收是重运营的工作,工作重点在于优化催收资源配置,提高催 收效率。

2.1.1.8. 不良处置

不良处置属于贷后管理,但因为具有特殊性,一般单列。 对于不良资产的处置,除了催收之外,常见的处置手段还包括不良 贷款重组、核销、转让出售、资产证券化、债换股等。 近些年随着信贷资产规模扩大,虽然不良率稳中有降,但总体不良余额仍然较大,行业也出现了很多不良资产处置服务的公司,未来不良 资产处置仍然是行业热点领域。

2.1.1.9. 个人贷款风险管理

对于个人贷款风险管理,可以从狭义和广义两个角度来理解。从狭义角度,银行最关注的信贷风险包括贷前申请欺诈风险和信用风险。从广义角度,信贷风险还包括利率风险、流动性风险管理、抵押物价格波 动风险,以及银行内外部操作风险、信贷业务相关营销风险等。

2.1.2. 信用卡

信用卡是记录持卡人账户信息,具备授信额度和透支功能,并为持卡人提供相关银行服务的各类介质,具有消费支付、分期付款、转账结 算、存取现金等全部或部分功能。 经过几十年的发展,信用卡产品已经很成熟,并衍生出多种产品形 态,特别是在20世纪80年代信用卡引入中国后,衍生出了很多具有中国特色的产品形态。

2.1.2.1. 信用卡产品种类
2.1.2.2. 信用卡产品要素
2.1.2.3. 信用卡业务形态

信用卡业务包括消费、循环、取现、分期等多种形态。

不同业务形态发生在不同阶段,具体如下所示。

  1. 商户分期、消费分期发生在出账日前。
  2. 账单分期发生在出账日后、应还款日前。
  3. 循环(最低还款)发生在应还款日后。
  4. 额度内现金分期、额度外专项分期比较特殊,性质类似于个人 贷款。
2.1.2.4. 信用卡交易结构
2.1.2.5. 信用卡收益来源

发卡行、收单行和清算机构角色不同,收益来源也有所不同。商户返佣分成是按照约定比例在发卡行、收单行和清算机构分成。

2.1.3. 信用卡业务流程

信用卡与个人贷款相比,产品特征有较大差异,因此业务流程会有所不同,信用卡业务流程如下。

  1. 前端渠道营销获客:信用卡的获客渠道包括自有线下渠道、自有线上渠道、合作商联名卡商渠道、线上导流渠道等。
  1. 申请受理与贷前调查: 申请人填写并提交申请资料,同时银行会要求签署"征信查询授权书"等文件,银行收到申请信后即展开贷前调查,对个人贷款申请内容和相关情况的真实性、准确性、完整性进行调查核实,并形成调查评价意见。贷前调查的方式以面审面签或者电话照会为主,同时银行联机查询人行征信以及外部数据。贷前调查的内容包括但不限于:材料一致性、借款人基本情况、借款人信用情况、借款人收入情况、对外负债授信担保情况、借款用途等。贷前调查的工作重点是完成信息收集以及信息核验,确保申请材料的完整性和真实性。
  2. 贷前审查与发卡审批:相对于个人贷款而言,信用卡业务比较标准,信用卡审批一般以集中的自动化审批作业方式为主,少量申请需要人工审批介入,需要进行特例审批的,则有相应的特例审批环节。信用卡审批一般需要几个工作日。
  3. 制卡发卡:审批通过之后,进入制卡发卡环节。对于实体卡,相关卡片信息会移交制卡中心,制卡后邮寄给持卡人。
  4. 激活:持卡人收到卡片后,一般需要通过银行电话客服或手机银行进行激活。
  5. 动卡消费、出账还款与贷后管理:信用卡激活后可用于消费刷卡,每月在账单日出账,持卡人应在应还款日还款。
    1. 对于银行而言,贷后管理的主要内容如下。
      1. 管理客户关系。
      2. 管理营销活动。
      3. 管理商户。
      4. 进行贷后检查、持续的贷后资产监控预警以及必要的贷后尽调。
      5. 进行贷款风险分类和不良贷款管理。
      6. 管理合同变更。
      7. 管理贷款档案。
  1. 逾期催收:逾期催收属于贷后管理,但因为具有特殊性,一般单列。逾期催收是指借款人未能按照合同约定的还款计划履行还款义务时,银行通过短信、电话、信函、上门、委外、诉讼等方式对其进行催缴。
  2. 不良处置:不良处置属于贷后管理,但因为具有特殊性,一般单列。对于不良资产的处置,除了催收之外,常见的处置手段还包括不良贷款重组、核销、转让出售、资产证券化、债换股等。

2.1.4. 信用卡风险管理

信用卡业务涉及发卡行、收单行、清算机构等,所包含的风险非常复杂。

  1. 发卡风险管理:发卡风险包括:信用风险,如信用审批、额度管理、交易授权、逾期催收;欺诈风险,如虚假申请(身份伪冒、资料虚假)、未达卡欺诈(克隆卡、白卡、变造卡)、伪卡欺诈、失窃卡欺诈、非面对面交易欺诈、账户盗用欺诈、持卡人欺诈(道德风险)等。
  1. 收单风险管理:收单风险包括商户信用风险、商户虚假申请、商户套现、终端违规移机、合谋伪冒交易、侧录(盗取账户信息)、欺诈性多笔交易、卡号测试、商户违规受理、复制(伪冒)POS终端、欺诈性联机退货等。
  2. 清收风险管理:清收风险包括国家风险、清算风险、系统操作风险、项目风险、品牌风险、合规风险、国际汇率风险等。

2.2. 信用与信用风险

信用是指按照约定履行承诺或义务而取得的信任。信用风险又称违约风险,是指借款人、证券发行人或交易对方因主观或客观原因,不愿或无力履行合同条件而构成违约,致使银行、投资者或交易对方遭受损失的可能性。

**银行面临的主要风险是信用风险,即交易对方不能完全履行合同的风险。**这种风险不只出现在贷款中,也会发生在担保、承兑和证券投资等表内、表外业务中。银行如果不能及时识别损失的资产,增加核销呆账的准备金,并在适当条件下停止利息收入确认,就会面临严重的风险问题。

通过上述定义可以看出,对于银行零售信贷业务,信用风险主要来自还款意愿不足和还款能力不足两方面,对信用评价也主要是通过这两方面进行的。

2.2.1. 信用风险识别

个人客户的信用风险主要通过分析客户的还款能力和还款意愿两方面进行识别。

2.2.1.1. 还款能力

还款能力的影响因素:还款能力受借款人当前收入、资产状况、负债状况、未来收入、收入稳定性等多方面因素影响,不是仅由当前收入高低决定的。

2.2.1.2. 如何判断还款能力

首先,要分析客户是否具备还款能力。主要是看收入还贷比是否在银行规定的范围内。在借款人提供的收入信息真实的前提下,银行还要重点关注借款人的负债情况,不仅要看借款人在本行是否有其他负债,还要通过征信报告或第三方数据查询借款人在其他金融机构是否有负债。掌握其完整的负债情况,才能准确推算出收入还贷比是否在规定范围内。

其次,要分析客户还款能力是否有保障。主要是通过对借款人基本资料中有关稳定性的信息进行考察,如现居住地稳定性、职业稳定性、家庭稳定性等,还要考察借款人工资收入、经营收入、家庭共有收入及财产等方面产生的现金流的稳定性,预测其未来现金流在满足正常生活开支以后能否覆盖还款额。

最后,要分析借款人是否具有较强的财产实力。现金流只能反映借款人资金的流动性,而充足的资产则可以反映借款人对工作或家庭发生变故的承受能力,即使将来借款人没有了现金流,也有能力通过处置资产偿还银行贷款。对于资产的评估需要重点关注资产价值以及资产流动性(快速处置变现能力)。

2.2.1.3. 还款意愿

还款意愿的影响因素:借款人的道德品质和违约成本是决定借款人还款意愿的首要因素。

2.2.1.4. 如何判断还款意愿

由于信息不对称,通常银行难以在短时间内全面了解借款人的个人品质,这就需要银行通过多种途径获取客户信息,从而判断其还款意愿。在业务受理之初,通过人民银行征信系统查询客户征信记录是否良好,对于线下业务也可同客户的亲戚、熟人、朋友打听,了解借款人为人处世的情况,包括是否有不良嗜好,还可通过面谈直接了解借款人的性格特点。

2.2.2. 信用风险评估

防范信用风险的核心是要正确评估和衡量信用风险。国际经济金融界对信用风险评估日益关注。信用风险评估方法主要包括专家判断法和信用评分模型法等。

2.2.2.1. 专家判断法

专家判断法是基础的信用风险评估方法,是商业银行在长期信贷活动中所形成的行之有效的信贷风险分析和管理制度。专家判断法是指银行信贷决策由银行内经过长期训练的具有丰富经验的信贷人员所掌握,并由他们做出是否贷款的决定。因此,在信贷决策过程中,信贷人员的专业知识、主观判断以及某些要考虑的关键要素是最重要的决定因素。常用的专家判断法有5C要素法、5P要素法等。

5C要素法:5C指借款人道德品质(character)、还款能力(capacity)、资本(capital)、担保(collateral)、环境(condition)。

道德品质是一种对客户声誉的度量,包括其偿债意愿和偿债历史,指客户愿意履行其付款承诺的可能性,其是否愿意尽自己最大努力来按照承诺还款。客户的品德好坏主要看个人特质,可根据其受教育程度、社会地位以及过去的信用记录来确定。

还款能力指借款人的财务状况是否足够支撑还款行为,主要根据借款人的收入、资产状况进行衡量。如果申请个人经营类贷款,还应判断项目或企业生产经营能力以及获利情况。具有较好的经营业绩、较强的资本实力和合理的现金流量的项目或企业,才具备良好的偿债能力。

对于个人经营类贷款,资本往往是衡量其财务状况的决定性因素,资本雄厚说明具有巨大的物质基础和抗风险能力。

借款人用其资产对其所承诺的偿还行为进行担保,如果发生违约,债权人对于借款人抵押物有要求权。这一要求权的优先性越高,则相关抵押品的市场价值就越高,欠款的风险损失就越低。

环境指对借款人的偿付能力产生影响的社会经济发展一般趋势和商业周期,以及某些地区或某些领域的特殊发展和变动。这是决定信用风险损失的一项重要因素。宏观经济环境、行业发展趋势、区域信用环境和营商环境对个人借款人的收入来源和偿债能力会产生直接或间接的影响。

5P要素法:有些银行将客户特征归纳为5P因素,即个人因素(personalfactor)、资金用途因素(purpose factor)、还款来源因素(paymentfactor)、债权保障因素(protection factor)、前景因素(pers-pective

factor)。

2.2.2.2. 信用评分模型法

伴随个人信贷产业日趋繁荣、大数据技术迅猛发展、数理统计模型技术进步、社会征信体系完善,信用评分模型技术也在蓬勃发展,成为个人授信风险管理的核心技术之一。

信用评分模型运用先进的数据挖掘技术和统计分析方法,通过对借款人的人口特征、信用历史记录、行为记录、交易记录等大量数据进行系统分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,开发出具有较强预测力的模型,以信用评分来综合评估借款人未来的信用表现。信用评分模型能为个人信贷管理人员提供大量具有高度预测能力的信息,帮助管理人员制订行之有效的管理策略,以较高的精度有效开拓市场、管理风险、挖掘收益,实现个人信贷业务的高收益。风险评分种类很多,其中常见且业内应用较为广泛的主要是申请评分卡(A卡)、行为评分卡(B卡)、催收评分卡(C卡)和欺诈评分卡(F卡)

2.2.3. 信用风险监测

风险监测报告是信用风险管理的重要环节,对于风险管理的实施和改进极为重要。它可以帮助各级管理人员准确、及时、全面地了解个贷业务资产组合在不同时间点的表现和质量,对风险管理策略进行适时的修正和调整,从而实现风险管理体系的逐步完善。

2.2.3.1. 信用风险监测

信用风险监测是指信用风险管理者通过各种监控手段,动态捕捉信用风险的异常变动,判断其是否已经达到引起关注的水平或已经超过阈值。信用风险监测是一个动态、连续的过程,包括交易级、账户级、客户级风险监测和资产组合风险监测。

2.2.3.2. 信用风险报告

银行应建立一整套信用风险内部报告体系,确保风险管理相关部门都能监测资产组合信用风险变化情况。根据信息重要性、类别及报告层级的不同,商业银行应明确内部报告的频率和内容。

2.2.4. 信贷风险控制

前面介绍的信用风险的识别、评估、监测用于确定风险损失的可能性和严重性,而信用风险控制是指基于已经识别的风险进行管理和控制,包括事前、事中、事后,常用的信用风险管理手段如下。

  1. 授信限额管理:包括客户统一授信、合作机构授信限额、区域限额管理、行业限额管理、产品组合限额等。
  2. 优质客户筛选:客户筛选是从源头降低风险,基于数据分析筛选出低风险高收益的优质客户,特别是在产品发行的早期阶段,风险政策和策略还在磨合,为控制风险,一般也是先通过行内白名单预授信的方式圈定优质客户。
  3. 业务流程控制:科学优化信贷业务流程和风控流程,对于风险管理尤为重要,实现跨部门、跨业务环节的多方信息互通和协作。
  4. 有效担保缓释:有效的担保手段包括抵押、质押和保证。但是随着消费金融、互联网信贷业务模式的发展,对担保的依赖慢慢降低了,以纯信用方式担保已逐渐成为主流。
  5. 及时有效的贷后管理:贷后管理主要是贷后检查、监控和预警,及时预知和发现风险。
  6. 及时清收处置:在发生逾期后,及时、有效地进行清收,及时止损,防止损失进一步扩大。
  7. 不良资产处置:不良资产处置包括不良贷款核销、转让出售、不良资产证券化、债务重组等。通过不良资产处置,尽可能将缺乏流动性的资产盘活,能够降低损失,帮助银行丢掉历史包袱,轻装上阵。
2.2.4.1. 征信体系

征信体系由与征信活动有关的法律规则、组织结构、市场管理、文化建设、宣传教育等共同构成。征信体系的主要功能是为信贷市场提供服务,同时因其具有较强的外延性,也服务于商品交易市场和劳动力市场。

社会信用体系是市场经济发展的必然产物,也受各国文化和历史影响。征信体系主要有市场主导、政府主导和会员制3种。我国采用的是市场主导和政府主导相结合的模式。

2.2.5. 欺诈与欺诈风险

欺诈是行为人故意制造假象或隐瞒事实真相并可能使他人误解、上当的行为。欺诈的本质是虚假或隐瞒。欺诈风险是指因欺诈行为带来的可能的潜在的损失。

2.2.5.1. 欺诈风险的分类

在银行零售信贷领域,欺诈可以从不同角度进行分类,如所示。

2.2.5.2. 欺诈风险的防范

欺诈风险防范比较有效的手段、技术、工具和抓手如下。

  1. 采用身份识别、活体识别、三要素四要素验证。
  2. 建立黑名单、多头借贷库和信誉库。
  3. 黑产设备和行为特征提取(基于规则)。
  4. 建立欺诈评分模型(有监督学习)。
  5. 建立聚类与异常检测模型(无监督学习)。
  6. 关联网络挖掘(无监督学习)。

需要特别说明的是,随着机器学习特别是深度学习技术在智能风控领域的应用越来越多,基于无监督学习和关联网络挖掘的模型效果会更出色。

2.2.5.3. 欺诈风险与信用风险比较

在实际业务中,欺诈风险与信用风险的界限并不是泾渭分明的,实际上有头部银行在风控实践中甚至并未对两者做严格的区分。在笔者看来,欺诈风险和信用风险存在一定差异,主要体现在如下方面。

  1. 欺诈风险属于操作风险范畴,欺诈的核心在于"虚假",而且欺诈风险如果造成重大损失的,则可能会触犯刑法,例如信用卡诈骗、信用卡恶意透支等。
  2. 欺诈风险具有动态性和对抗性,欺诈具有明显的对抗性和显著的动态性,原来设定的欺诈规则随时可能会失效,使用监督学习模型的反欺诈模型的预测效果可能会随时间较快衰减。
  3. 从建模技术角度,两者也存在一定区别。
    1. 欺诈更关注短期行为,因为欺诈分子的目的一般是"捞一把就跑",通常不会潜伏或逗留太久,所以模型目标Y以短期快速逾期表现为主。两者所使用的特征变量侧重点有差异,欺诈风险模型更倾向于构造反映欺诈的特征。
    2. 在模型选择方面,欺诈模型更多使用非监督学习方式。反欺诈对于实时性有更高要求,特别是交易反欺诈和支付反欺诈场景,都要求做到实时欺诈识别。

3. 数据基础决定模型效果上限

模型效果和质量的影响因素包括数据的质和量、特征工程质量、模型设计方案等,其中数据的质和量无疑是最具决定性和基础性作用的,所谓"巧妇难为无米之炊",如果数据的信息域、样本量和信息维度不足,或者数据本身并不具备预测力,则很难建立有效的预测模型。

3.1. 数据的系统性认识

以数据为研究对象的学科领域包括数据科学和数据工程:数据科学的重点在于对数据进行分析和建模,以便从数据中提取有价值的信息,偏分析层面;数据工程的重点在于数据的采集、存储、处理、服务等,偏工程层面。

大多数情况下,数据分析的过程必须包括数据探索。对于数据探索可以有两个层面的理解:

  1. 一是仅利用一些工具对数据特征进行查看;
  2. 二是通过探索,理解业务含义,感知数据价值,并由此决定后续数据加工和处理的逻辑。对数据进行探索、预处理和分析,既需要技术手段的支撑,也需要具备数据分析经验和对业务问题有深入的理解。对数据进行处理和探索,依赖于对数据本身的理解,包括数据的业务逻辑、数据的存储逻辑等。

3.2. 数据的基本特征

3.2.1. 定类型、定序型、定距型、定比型

度量特性反映了数据的业务含义,按照度量特性,数据可以分为定类型、定序型、定距型和定比型4类。

  1. 定类型指无序的数据,例如性别。
  2. 定序型指有序的数据,例如学历。
  3. 定距型指有刻度单位的数据,虽然不能进行乘和除操作,但是可以相减以计算距离或差异,例如温度、年龄。
  4. 定比型数据可以进行各种数值型操作,特别是相比操作,例如:金额、比例。

在有些文献中数据也分为三大类,区间型、序数型、分类型,即将定距型和定比型数据合并为区间型,定类型即为分类型,定序型即为序数型。

对数据度量特性的理解和判断将影响和决定后续数据处理的方式,如果一个数据是定类型的,虽然用数值1、2、3等进行存储,但数值的相对大小与业务含义并不对应,这种情况下必须要将数值转换成类别编码,不能直接将数值代入模型中。

3.2.2. 连续型与离散型,数值型与分类型

更简单的数据分类方式是分为连续型和离散型或者数值型和分类型。通常将定类型和定序型数据归为离散/分类型数据,定距型和定比型数据归为连续/数值型数据,这种对应并不严格。

注意这里提到的"数值型"是数据业务逻辑层面的概念,而非计算机物理存储层面的概念。例如年龄,业务逻辑理解应当是数值型的,但可能因为特殊原因,例如数据导出时就是以带引号的数字存储的,导致在数据库中以char方式存储,在后续数据处理过程中就需要将其转换成数值型。又例如性别,业务逻辑理解应当是分类型的,但可能因为自定义编码在数据库中是以数字形式存储的,在后续数据处理过程中就需要将其转换成分类型。

如果不了解字段的实际业务含义,仅以存储数据的格式为依据,分析人员可能会出现数据类型判断失误。数据库中以数值形式存储的1,业务含义不一定是数值型,也可以是分类型,例如性别,其实际业务含义是分类型的变量。

3.2.3. 数据类型

数据库中的数据类型一般可以分为整型、浮点型、字符型、日期型、时间型、日期时间型、时间戳型等,不同的数据库系统的数据类型定义和分类会有一定的差异。

3.2.4. 数据格式

数据库或编程语言中的数据格式用于指定数据显示的形式,例如日期型可以显示为2020-07-11,也可以显示为2020/07/11。同一个日期在底层存储的是同一个数值,但可以显示为不同的格式,在SAS中定义了几十种数据显示格式。

3.2.5. 结构化、半结构化、非结构化

数据按照存储形态可以分为结构化、半结构化、非结构化。结构化是指数据有行列结构,通常以二维表的方式存储在数据库、数据文件或内存变量中。时序数据和空间数据,因为有固定结构,所以一般被当作结构化数据。

半结构化是指存在约定结构格式但没有显式的行列结构,最常见的是XML、JSON、HTML等格式的数据。半结构化数据可以通过解析转换成多结构化表。

非结构化是指没有约定结构,最常见的如图像、语音、视频、文本等。非结构化数据在计算机中也是有固定编码的,可以通过"特征提取"来提取结构化的特征。近些年出现的深度学习技术,更准确地说是表征学习技术,可以实现端到端的学习,不用依赖显式的特征提取。

3.2.6. 数据维度

维度是人们观察事物的角度。从不同的维度观察数据,可能会得到不同的结果,同时也使人们可以更加全面和清楚地认识事物的本质。数据的维度是定义数据指标的角度,即指标是针对给定一组变量细分、计算出来的。维度可以简单理解为类似于计算指标SQL的group by语句中的一组变量。

当数据有了维度的概念之后,便可对数据进行多维分析。常见的多维分析主要有钻取、切片、切块和旋转。钻取是改变维度的层次,即变换分析的粒度(类似于放大镜或镜头调整焦距),包括上钻和下钻。上钻是在某一维上将低层次的细节数据概括到高层次的汇总数据,减少了分析的维数。下钻则是相反,它是将高层次的汇总数据进行细化,深入到低层次的细节数据,增加了分析的维数。对于切片和切块,在多维分析中,如果在某一维度上限定了一个值,则称为对原有分析的一个切片。如果对多个维度进行限定,每个维度限定为一组取值范围,则称为对原有分析的一个切块。在多维分析中,维度都是按某一顺序显示的,变换维度的顺序和方向或交换两个维度的位置的操作称为旋转。

3.2.7. 数据粒度

数据粒度是指数据仓库中数据的细化和综合程度。根据数据粒度细化标准,细化程度越高,粒度越小,细化程度越低,粒度越大。根据数据仓库中的数据粒度,我们可以估计数据仓库存储空间的大小。

数据粒度可以形象地理解为比例尺、分辨率、放大镜。对于指定维度,例如日期维度,不同的粒度是指年、月、日等,越向下,数据粒度越细,同时数据存储量以及对数据库的处理能力要求就越高,可以从高粒度层次下钻(明细),也可以从低粒度层次上钻(汇总)。

3.3. 常见数据问题

3.3.1. 数据PIT问题

数据PIT(Point In Time,时点)问题是建模过程中常见但是很容易被忽视的问题。对于离线建模,通常基于历史数据建模,所有数据都必须回溯到历史时点,使用历史时点的数据。这就要求银行在做数据存储时保留变更(修改和删除)的轨迹历史信息,而不是仅保留当前的最新状态信息,仅保留当前最新状态信息不能实现历史数据和状态的回溯。忽视数据PIT问题,可能导致变量时间穿越,即用未来的数据预测未来的目标,这种情况会带来建模逻辑错误。

3.3.2. 数据回溯问题

数据可回溯是指可以回到历史时点得到当时时点的数据。离线建模经常遇到数据不可回溯问题,数据的不可回溯性包括如下3种情况。

  1. 时点状态数据原址更新,但未保存历史时点快照。
  2. 数据实时API接口服务用完即走,并未落库。
  3. 回溯时点之后数据库升级,例如数据只在回溯时点之后才开始采集。

数据回溯可能存在"伪回溯"问题,特别是在采购外部第三方数据前进行数据测试时可能会面临这个问题。"伪回溯"即表面上看数据回到建模时点,但数据加工逻辑中隐含地使用了当前的数据。在采购外部第三方数据前进行数据测试时需要保持警惕,避免出现"伪回溯"问题。"伪回溯"问题带来的后果是,采购前测试效果很好,上线后效果明显下降。

3.3.3. 热数据与冷数据

银行数据有冷数据和热数据之分。热数据是需要被计算节点频繁访问的在线类数据。冷数据是不需要经常访问的数据,比如企业备份数据、业务与操作日志数据、话单与统计数据。对于已经结清的账户,可以保存在单独的已关户账户表里,对应的流水数据也可以单独保存,这样有利于提高存量账户表数据处理性能。

在提取数据及进行数据处理时,需要有冷数据与热数据的意识,避免数据提取不全或者数据处理逻辑错误。例如建模会用到客户/账户信息表,一般是提取最新时点信息表,需要确保冷数据的客户/账户仍然保留在表里,否则会出现关联不上客户信息的情况。

3.3.4. 松耦合与弱连接

多数情况下,信贷业务数据都是紧耦合的,表和表通过明确的主键和外键进行关联,但在某些情况下,两个数据表之间可能不存在明显的业务关联意义,也就不存在显式的连接关系了。

  1. 人行征信数据:人行征信查询一般是独立的外部数据查询前置,信贷申请表与人行征信可能不是通过一个键进行关联的。
  2. 外部第三方数据:一般是根据用户实体和时间戳进行连接,但本身没有直接的业务关联。
  3. 设备行为信息:用户在设备上操作行为轨迹,与本笔业务之间没有直接的关系。

3.4. 数据质量诊断

3.4.1. 数据质量诊断目的

在建模之前需要对数据进行探索和数据质量诊断, 确保数据提取无误:通常提取数据并非由分析建模师自行完成,而是由数据分析建模师提出数据需求,由数据部门协助完成数据的提取工作。在此过程中,可能出现数据逻辑传达不清、理解不准确或者提取数据有技术性错误(编码错误、串行、串列、截断等)等问题,导致数据有误(操作型错误)。数据治理

3.4.1.1. 理解数据逻辑

通过数据探索和质量诊断,可以更准确和深入地理解数据逻辑。对于数据逻辑的获得途径,

一方面可以通过数据访谈,从数据拥有方和管理方进行了解;另一方面是获取数据之后自行探索数据,对之前了解的数据逻辑进行验证,或者探索性发现和确认数据逻辑。需要注意的是,通过数据拥有方和管理方获得的数据逻辑未必准确,因此自行对数据做进一步的检查和确认是有必要的。

3.4.1.2. 检查数据质量和可用性

检查和分析数据质量,主要包括数据的正确性、完整性、等,初步理解和判断数据的价值和可用性。

3.4.1.3. 为模型设计提供依据

基于数据质量分析结果,重点确认样本量、好坏样本量是否充足等,判断是否足够支撑建模,为后续建模的样本范围确定提供依据。

3.4.2. 数据质量诊断方法

数据质量诊断包括如下内容。

3.4.2.1. 表描述

表描述概括了表的基本信息,包括观测数、变量数、数值型/字符型变量数等,

3.4.2.2. 字段描述

字段描述概括了变量的信息,包括缺失值个数、缺失率、取值水平数等,

3.4.2.3. 值描述

值描述概括了取值内容,包括分类型变量的频数统计、数值型变量的分位统计。

3.4.2.4. 单表键值检查

单表的逻辑主键检查用于确认逻辑主键是否唯一。理论上逻辑组合主键应当是唯一的,如果出现了重复或缺失,则需要进一步分析原因,确认数据逻辑,并做出相应处理

3.4.2.5. 表关联关系检查

对有关联关系的多张表之间的关联关系进行检查,分别计算各种连接运算(join、left join、right join等)的记录行数和键值数,以确认映射关系是1:1、1:m还是m:n,并确认表间关联关系,以及不同表之间交集范围。

3.5. 业务数据分析

3.5.1. 业务数据分析目的

在完成数据预处理和数据质量诊断后,需要围绕建模目标,基于数据对业务进行初步分析。

3.5.1.1. 理解业务逻辑

对业务逻辑的理解也是类似的,业务逻辑一方面是通过前期业务访谈,通过业务部门和数据部门进行了解;另一方面是获得数据之后,通过对数据进一步分析,对之前了解的业务逻辑进行验证,或者通过探索性分析发现和确认业务逻辑。需要特别注意的是,通过业务部门和数据部门获知的业务逻辑未必准确,所以自行基于数据分析进行业务理解是有必要的。

3.5.1.2. 为模型设计提供依据

基于数据分析可以对业务情况有一个初步理解,包括业务发展情况、客群分布情况、产品分布情况、风险表现情况以及典型风险点和风险特征等。此外,模型设计需要的三大基础分析包括Vintage分析、逾期趋势分析、滚动率分析等,一般也在该阶段完成。

3.5.2. 业务数据分析方法

在业务分析环节,数据分析师通常面临的问题是不知道要分析什么以及怎么分析,本节简要介绍在数据分析阶段进行业务分析的思路和范围。

3.5.2.1. 分析内容

业务分析内容如下。

  1. 业务发展情况。
  2. 客群分布情况。
  3. 产品分布情况。
  4. 分渠道、分客群、分产品、分账龄的风险表现情况。
  5. 模型设计所依赖的Vintage分析、逾期趋势分析、滚动率分析等。
3.5.2.2. 分析方法

业务分析方法如下。

  1. 频数统计占比分析,例如统计各类产品的数量和占比。
  2. 趋势分析:添加时间维度,统计逐月的业务发展和风险表现情况。
  3. 比值分析。
  4. 多维度交叉表。

3.6. 传统信贷业务数据

对于零售信贷风险建模,通常需要经过数据访谈、确定数据源、提取数据、数据探索与理解、数据清洗与预处理、数据业务分析等环节。不同的风险模型使用的数据存在一定的差异,但大部分是共同的,本节介绍零售信贷常用的业务数据。

3.6.1. 贷款可用数据

对于个人贷款业务,零售信贷风险建模可用数据如表所示。

3.6.2. 信用卡可用数据

3.7. 征信数据

对于银行信贷风控,征信数据是非常核心和重要的。征信数据记录了借款人在持牌金融机构的信贷或融资情况,不仅限于商业银行和持牌消费金融公司,也包括证券、担保等机构。实践证明,征信数据对于借款人违约具有很强的预测力。

3.7.1. 人行征信数据

截至目前,在个人征信领域,除了人行征信中心外,获得合法个人征信牌照的征信机构仅百行征信和朴道征信两家。

第一代人行征信

第二代人行征信

3.8. 内外部数据

对于零售信贷场景,传统数据主要指银行信贷业务办理过程中正常收集的业务数据,包括客户信息、贷款申请信息、产品信息、合同信息、借据信息以及放款后的提款信息、还款信息、逾期信息等,通常传统数据由实际的业务系统进行采集和存储。

金融大数据有不同的分类标准,可以按照产生实体、数据结构、数据获取和处理方式等进行分类

3.8.1. 银行内部大数据

内部大数据是指银行内部可以自行采集的大数据。

银行内部采集大数据,需要考虑如下原则。

  1. 须确保所采集的数据有使用价值和分析价值,对业务决策和运营有价值。要有针对性地采集,最好有较明确的应用场景,不能为了采集而采集,导致采集到的数据不能发挥作用。
  2. 须具有一定的前瞻性,做好数据战略规划。例如,有些数据当前受限于分析条件和分析能力,暂时不能使用,需要提前进行规划和布局。
  3. 所有大数据收集都应遵守合规性要求,确保信息安全和隐私保护。
  4. 应具备配套的数据体系、数据治理、数据分析能力。

3.8.2. 银行外部大数据

除了内部采集,通过采购或合作方式可以更直接和快速地获得外部数据。

4. 特征工程在信贷风险特征引用

特征工程是分析和建模的关键环节,直接决定了模型的质量和效果。将对特征工程的基本概念和方法体系做简要介绍,先介绍特征和特征工程的定义,然后介绍特征工程的理论体系结构。

特征工程分为三部分:特征预处理与转换、特征提取与衍生、特征选择与降维。

  1. 特征预处理与转换是"做映射",对特征本身施加某种转换映射,不论是对缺失值、异常值进行填充,还是特征重编码以及特征变换函数,本质上都是构造了一个映射函数,对特征做映射和转换。
  2. 特征提取与衍生是"做加法",从已有的字段变量生成新的特征,而不是在原有变量的基础上做简单变换,通常需要进行数据的聚合以及多变量的组合计算。
  3. 特征选择与降维是"做减法",从已有的特征集合中,按照某种准则进行维度缩减,可以是选择式的(选出子集),也可以是降维式的(重新计算的低维特征集合)。

4.1. 数据处理与特征工程流程

在整个分析和建模的流程中,与数据相关的环节的关系如图所示。

原始输入数据有多种形式,绝大多数情况下是结构化表(存在于关系型数据库或者CSV、Excel、TXT等数据文件中)。随着金融大数据技术的应用与普及,越来越多的半结构化数据(JSON、XML、HTML等格式)和非结构化数据(文本、图像、音频、视频等文件)应运而生。

我详细介绍了建模所需的数据基础,即数据的质和量,基于原始数据进行基本的数据处理,包括数据清洗以及数据聚合和表关联,最终得到清洗和预处理结果表。

使用特征工程方法对预处理结果表进行进一步挖掘,包括转换、衍生和选择三方面,得到特征宽表。特征工程是从数据中进一步提炼、萃取、蒸馏,提取出更能反映风险特征和更有价值的信息的过程。

数据分析和建模通常基于关系型数据表,会有多张表以及多级表。进行特征衍生需要明确以下两点。

  1. 特征层级和主键:确定特征对象主键KeyID,例如确定需要衍生的特征是客户级、账户级、卡片级还是交易级。
  2. 多张表与多级表:多张表是指同一实体层属性特征存储在多个表里,多级表是指实体主表附属多个子表。对于多级表,在特征衍生时需要逐级向上级聚合。

4.2. 特征预处理与转换

4.2.1. 常见数据质量问题

通常直接获得的原始数据比较"脏",可能包含错误值、缺失值、异常值等,或者对于特定模型而言,原始特征不可直接使用。为了让特征质量更好并且模型可用,需要对数据做一些预处理清洗,并进行特征转换。

原始数据可能存在如下问题。

  1. 错误值:由于数据采集时录入错误,后续计算加工错误,或信息系统的原因,导致数据有误。
  2. 缺失值:因为逻辑原因、数据采集原因,或者表间关联、冗余存储等原因,字段值缺失,有些模型比如线性回归和逻辑回归等不接受缺失值,这种情况就需要对缺失值进行处理。
  3. 异常值:因为真实数据中存在异常值,或者因数据采集录入、计算错误带来的异常值,对于有些模型例如线性回归,异常值会有杠杆效应,对模型带来不利影响,需要在建模前做必要的处理。
  4. 完整性:数据采集、数据提取或者业务本身发展变化(例如产品暂停导致特定时间段没有数据)导致数据不完整。缺失值也可视为数据完整性的一方面。
  5. 分类变量:某些机器学习算法模型只能接受定量特征,这就需要将分类变量通过编码转换为定量特征。
  6. 非结构化数据:对于文本、图像、语音、图数据等类型的数据,模型不能直接使用,需要对数据进行预处理,例如文本编码向量化、图像和语音特征提取等。
  7. 量纲问题:特征的规格不一样,不能放在一起比较,特别是在涉及距离度量和数值计算时,例如依赖于距离计算的算法模型以及广义线性回归类模型。一般考虑采用无量纲化解决这一问题,典型的做法是标准化归一化,或者通过比例消除量纲。

4.2.2. 特征清洗与预处理

错误值:发现错误值通常没有明确和标准的方法,而且很难确保不遗漏,一般采取频数统计、勾稽关系检查等方法,但无法保证发现所有的错误。错误值的发现准确率通常很高但存在漏报的情况,判定为错误的一定是错误,未判定为错误的不一定不是错误(只是没有发现而已)。

对于已经发现的数据错误,如果有明确定义标准的即判断数据正确和错误标准是明确的,则直接按照正确的逻辑重新计算正确值予以更正。不同于数据质量优劣,对于数据错误,一旦发现,则结论一定是明确的。不过虽然知道数据错误但不一定知道正确答案,因此会出现"知道这个数错了,但不知道正确值"的情况,例如数据勾稽关系不一致,则必定至少有一方数值是错误的。

4.2.3. 异常值

对于异常值很难有明确的定义,一般认为对于定距型变量和定比型变量,在置信区间上下限1%和99%分位点之外的为异常值,通过分布统计来发现。使用异常检测算法可以识别异常值。

回溯数据质量调查,对于有明确更正逻辑的异常值按照正确的逻辑进行处理。也可以通过分箱值转换,实现模型对极值的适应性,降低极值的杠杆效应。建议选择极端值适应模型,如决策树、XGBoost等模型。删除异常值的记录行,必须经过统计分析确保删除的记录行是随机的,这种做法比较激进。

4.2.4. 缺失值

一般通过频数统计可以发现缺失值。缺失值的处理方法如下。

  1. 保留:对于逻辑上缺失值有明确业务含义的,应保留缺失或者赋予约定的特殊值标记和填充,同时选择适应缺失值的模型。
  2. 填充:对于填充逻辑明确的,则按照明确的逻辑进行填充,例如性别缺失时可通过身份证号补全。对于随机缺失的情况,可用总体众数均值进行填充。对于预测型热填充,近似的样本具有近似的取值。
  3. 转换:缺失值转换,例如转换为WOE值。
  4. 删除:删除缺失值的记录行,必须经过统计分析确保删除的记录行是随机的,做法比较激进。删除缺失率高的变量,如果某变量缺失率过高,除非其与目标变量有显著相关性,否则可考虑删除该变量。

4.2.5. 特征编码

特征编码是将原始特征按照特定编码方式进行重编码。常见的重编码方式如下。

  1. 分类型变量:某些算法模型不能直接支持分类型变量,需要重编码为数值型变量,例如对于定类型分类变量,可以采用OneHot编码、Dummy编码等方式。对于定序型分类变量,可以采用LabelEncoder编码等。
  2. 文本型变量:文本不能直接进入模型,通常需要先分词并向量化,再进行重编码,例如词袋模型OneHot编码或者Word2Vec词嵌入,将文本转化为词向量。
  3. 特征增强:通过重编码提升变量的稳定性和预测力,例如通过变量分箱,可以平滑变量,增强变量稳定性,进而再通过WOE映射将分箱映射为对应的WOE值,一方面实现对缺失值和异常值的适应,另一方面增强逻辑回归中与目标变量的线性相关性,提升模型效果。
  4. 二值化:有时候我们并不关心具体数值,只关心"是/否"或者"好/坏",此时通过二值化编码将数量特征映射为0/1取值。二值化的本质是一种特殊的分箱(即将变量取值分两个箱)。

4.3. 特征转换

特征转换是通过指定映射函数将特征映射为新的取值。进行特征转换的目的是改变特征的统计分布。在现实生活中,数据(特别是数值型变量)的分布大多呈现中间高两头低的形态,而且不少统计模型都对变量的分布形态有要求(例如服从正态分布),此时需要通过特征转换来改变特征分布形态。

  1. 部分变量表现为长尾分布,以收入为例,高收入分布范围广,但样本量稀少,此时可以通过对数变换,实现坐标轴的对数化,压缩高收入的范围。如果不进行对数化,对于回归模型会有较强的杠杆效应,即远端的数据会显著影响回归计算。除了对数化之外,常见变换还有平方根变换、sigmoid变换、probit变换等。
  2. 通过某种变换来改变数据分布,理想状态是使得数据更加接近正态分布。
  3. 归一化去量纲,多个变量量纲不统一,数据范围不统一,通过标准化归一化操作,将数据映射到相同或可比的取值范围。

常见特征转换映射包括指定变换(例如对数变换、平方根变换、sigmoid变换、probit变换等)和Box-Cox变换(即通过统计检验将数据尽力映射到接近正态分布)。

4.4. 特征提取与生成

特征提取与生成是从已有的字段变量,生成新的特征,而不是在原有变量的基础上做简单变换,通常需要进行数据聚合以及多变量的组合计算。

4.4.1. 业务专家经验定义

基于业务专家经验定义特征是特征工程重要的内容,虽然现在特征工程相关的开源工具越来越多,但不可否认专家经验仍然是非常宝贵的。基于专家经验定义的特征,能更有效地反映业务特征和风险特征,且所提取的特征的可解释性更强,使得模型的预测效果更好。

虽然通过业务专家经验来定义特征非常重要,但很难有一套标准且明确的规则和方法,很难形成一套标准的方法论,很多时候是依靠点滴经验的积累,或者是对于特定风险点的敏锐洞察,需要长久的经验积累,也依赖于悟性和敏锐感知力,甚至只可意会不可言传,更像是一门艺术而非技术。

4.4.2. 工程化自动化衍生

如果将"业务专家经验定义"衍生特征比喻为纯手工打造,则"工程化自动化衍生"就可以比作批量工业化生产,按照预先定义的算子和计算模式,批量生产出成千上万甚至上百万的特征变量。

工程化自动化衍生是按照指定模具批量化生产,根据是否使用目标变量,可以分为无监督方式和有监督方式,根据是否使用机器学习模型,可以分为基于模型和不基于模型。

4.4.3. 表征学习

表征学习的发展有两条主线,一条以传统统计学习为代表,例如PCA、LDA、流形学习等,发掘高维数据的内在结构,另一条以结构学习即神经网络深度学习为代表。随着计算机计算能力的提升和深度神经网络结构的不断发展,人们更多地使用深度神经网络来更有效地提取数据特征,用于后续的分类或预测。

特征学习可以分为监督式特征学习和无监督式特征学习两类。

  1. 在监督式特征学习中,被标记过的数据被当作特征用来学习,例如神经网络、多层感知器、监督字典学习。
  2. 在无监督式特征学习中,未被标记过的数据被当作特征用来学习,例如无监督字典学习、主成分分析、独立成分分析、矩阵分解、聚类分析、自编码器等。

4.5. 特征评价、选择、降维

特征提取与生成之后,可以得到大量特征,但并非所有的特征都有很强的预测能力,而且特征与特征之间存在一定的相关性,在正式建模之前需要对特征进行选择和降维。

4.5.1. 特征评价

进行特征选择需要有明确的、具备可操作性的特征评价标准,以此评价标准作为特征选择的依据,常见的评价标准如下。

4.5.1.1. 业务角度
  1. 数据合规性

数据合规性是特征评价的基础要求,使用变量必须合法合规,不侵犯隐私和信息安全,在欧美国家,建立评分卡不得使用性别、宗教、种族、政治倾向等信息。

  1. 变量可获得性

变量是否可以被采集,不仅要考虑当前建模时点,还需要考虑未来上线应用时点,例如因为数据隐私政策和数据安全政策规定,导致未来不能再获得的数据,则不建议使用。

  1. 变量可解释性

变量是否具备较强的易理解性,是否和预测目标有较强的关联性(最好是具备因果关系)。

  1. 变量的趋势是否和业务理解一致

该标准属于变量可解释性,但因为太重要,这里单列以示强调。业务理解的特征趋势需要和数据统计显示的趋势保持一致。

  1. 其他特殊因素

例如账龄变量是一个比较有争议的特征,从业务含义上看,账龄本身与风险具有相关性(一般来说账龄越长越好),但如果将该变量放入模型,有可能因为特定时间点市场营销活动带来大量进件,导致变量PSI变化较大。

通常金额类变量慎用,原因是有些金额类变量例如收入,会随着通货膨胀而逐渐漂移,同时,收入变量通常具有地区差异性,也不具备可比性。

4.5.1.2. 数据角度

数据角度是从数据本身的分布特征出发,对特征质量进行评价,包括如下内容。

  1. 变量的缺失率、集中度、波动性等

这几方面特征相互有关联,缺失率高的特征自然集中度也高(集中取值为Missing),集中度高的变量信息熵低。通常变量缺失率不应过高,需要注意的是,不能简单地认为缺失率高的变量就不好,缺失率和预测力没有必然关系。首先需要确定缺失原因,因为变量缺失是可以根据数据处理规则进行填充的,填充后的缺失率不能反映真实的缺失情况,另外如果前端设置了默认值,则该默认值可能与缺失值具有相同的业务含义。其次如果缺失率高,同时IV也高,极端情况例如非缺失值都是坏样本,则该变量具有较强预测力是好的特征,所以需要结合IV来看,如果IV低并且缺失率高,则不是好特征。

一般来说,集中度过高的变量,通常变量信息值(InformationValue,IV)会比较低。需要注意,不能简单地认为集中度高的变量就不好,也需要看集中的值对于预测力有没有帮助。

波动性是指变量取值有变化,如果变量"波澜不惊",则包含的信息有限,但是这并不意味着波动率大的变量就比波动率小的好,因为变量尺度会影响波动率,一般可使用变异系数(标准差/均值)来衡量。需要注意的是,对于线性模型而言,变异系数也不能完全客观地反映变量质量,因为通过变量平移,模型中该特征的预测力并不会改变,但变异系数会改变。波动性只是一个参考因素,是一个相对性的参照指标,没有绝对意义。

4.5.1.3. 变量时间稳定性

衡量变量分布稳定性通常使用PSI(Population Stable Index,稳定度一般认为PSI≥0.25即表明特征分布已发生较大变化。需要注意,避免片面理解PSI指标,是否PSI≥0.25就一定意味着模型预测力下降?答案是"否",PSI变化与模型预测力没有必然的关系,原因在于预测模型本质上是条件概率密度估计P(Y = y|X),条件概率密度是假定X给定的前提下对Y的概率估计,与X本身的分布并没有直接关系。

4.5.1.4. 变量的预测力

计算IV指标,一般认为IV≥0.02的特征具有预测力。

4.5.2. 模型角度

通过预测类模型,例如通过判别分析、随机森林等筛选出预测力强的变量,或者使用XGBoost或LightGBM模型可以直接得到特征重要性,即模型训练后直接读取模型对象的importance属性即可。

4.5.3. 特征选择与降维

特征降维与特征选择类似但稍有差别,特征选择是从特征清单中选出真子集,而特征降维除了可以通过特征选择来实现,也可以通过特征组合实现,即通过模型进行特征组合计算,得到若干低维组合特征变量。特征降维的目的是将原始特征从高维空间压缩到低维空间,并且最大限度保持空间内部结构(样本分布方差、向量距离、向量内积等)。

特征选择和降维主要有三类方法:过滤法(Filtering)、嵌入法(Embedded)、包装法(Wrapped)。

4.5.3.1. 过滤法

过滤法按照特定筛选标准进行特征筛选,去除那些不太可能对模型有用的特征。

一般来说,过滤法的计算成本比下面两种方法要低很多。根据是否使用目标变量,可以将过滤法分为无监督过滤和有监督过滤两种。

无监督过滤

无监督过滤不需要使用目标变量Y,仅基于变量本身的特征进行变量选择。

  1. 特征缺失率或集中度高于阈值时过滤。
  2. 变量方差波动小于阈值时过滤。
  3. PSI时点稳定性大于阈值时过滤。
  4. 变量两两相关系数大于阈值时过滤。

监督过滤

有监督过滤需要使用目标变量Y,选择的结果对于预测目标有直接相关性。

  1. 变量WOE趋势不单调时过滤。
  2. 变量IV值低于某阈值时过滤。
4.5.3.2. 嵌入法

嵌入法将特征选择自然地融入模型训练过程,即在模型训练过程中同时完成了特征选择。例如使用决策树模型进行预训练,决策树模型挑出的特征就是显著的特征。又例如L1和L2正则项可以添加到任意线性模型的训练中,施加正则项后模型将使用更少的特征,所以又称正则项为模型的稀疏性约束。

嵌入法将特征选择整合为模型训练的一部分,虽然不如包装法强大,但成本也远不如包装法那么高。与过滤技术相比,嵌入法可以选出特别适合某模型的特征,从这个意义上说,嵌入法在计算成本和结果质量之间实现了平衡。

4.5.3.3. 包装法

包装法通过统计模型或者机器学习模型来选择特征,相比其他方法而言,计算成本较高,但可以试验特征的各个子集,可以通过模型自动组合挖掘出更多有用特征,特别是单独看某特征并无特别强的预测能力,但通过模型训练,该特征与其他特征组合之后却具有较强预测能力。

根据是否使用目标变量,可以将包装法分为无监督和有监督两种。

  1. 无监督方式

使用因子分析(FA)、主成分分析(PCA)、独立成分分析(ICA)、多维尺度规约(MDS)、非负矩阵分解(NMF)、变量聚类等,以及基于深度学习自编码器等无监督方式,可以实现特征降维和特征选择。

  1. 有监督方式

使用有监督的机器学习模型,例如:决策树、随机森林、线性判别分析(LDA)、二次判别分析(QDA)等,自动筛选出更有区分能力的特征变量。

5. 评分卡面试问题总结

博文参考

  • 《智能风控:评分卡建模原理、方法与风控策略构建》
  • 《信贷域》
相关推荐
AC赳赳老秦2 小时前
剪映 + DeepSeek:短视频脚本生成与图文成片文案优化实战指南
人工智能·程序员创富·短视频·抖音·自媒体·剪映·deepseek
123_不打狼2 小时前
自然语言处理简介
人工智能·自然语言处理
小咖自动剪辑2 小时前
AI 智能视频无损放大工具:支持超分辨率与智能补帧
人工智能·音视频·智能电视
王莽v22 小时前
序列并行-负载均衡
人工智能·分布式
byzh_rc2 小时前
[AI数学从入门到入土] 线性代数基础
人工智能·线性代数·机器学习
Aurora@Hui2 小时前
MIT NANDA:Networked Agents and Decentralized AI
人工智能
小二·2 小时前
Python Web 开发进阶实战:AI 原生应用商店 —— 在 Flask + Vue 中构建模型即服务(MaaS)与智能体分发平台
前端·人工智能·python
Aaron_9452 小时前
AnythingLLM:全栈私有化AI聊天应用平台的深度解析
人工智能