互联网风控体系建设理论

背景：

在互联网业务蓬勃发展的当下，各类创新模式如春笋般涌现，为我们的生活带来了前所未有的便利。但在这繁荣的背后，风险也如影随形。就拿曾经红极一时的某互联网金融平台来说，在快速扩张的过程中，过于注重业务量的增长，却忽视了风控体系的建设。他们在贷款审批环节过于宽松，缺乏对借款人信用状况、还款能力的深入核实，仅凭一些简单的资料就轻易放贷。结果，随着时间的推移，大量借款人逾期还款甚至直接违约，坏账率急剧攀升。最终，这家平台资金链断裂，不仅自身陷入了破产危机，还让众多投资者血本无归，引发了社会的广泛关注和担忧。

类似的事件并非个例，在电商领域，虚假交易、恶意刷单现象屡禁不止；社交平台上，信息泄露、网络诈骗也时有发生。这些风险事件不仅给企业带来了巨大的经济损失，损害了用户的切身利益，还严重影响了互联网行业的健康发展，破坏了市场的信任环境。所以，构建一个完善、高效的互联网风控体系迫在眉睫，它就像是互联网业务的 "安全卫士"，为行业的稳健前行保驾护航。

一、互联网黑产常用攻击手段

1、基础攻击手段：批量操作与资源侵占

黑产的基础攻击手段以"批量自动化操作"为核心，旨在快速侵占平台资源、获取初始权限或直接套取利益，具有实施成本低、覆盖面广的特点。典型方式包括：一是DDoS攻击，通过控制"僵尸网络"在短时间内发起海量无效请求，耗尽服务器带宽与计算资源，导致网站或APP无法响应正常访问，实现实质下线，进而胁迫企业支付赎金；二是垃圾注册，利用脚本、注册机等工具批量创建虚假账号，这类账号被广泛用于刷流量、点赞评论、恶意差评等水军行为，严重扰乱平台生态秩序；三是薅羊毛，黑产通过虚假身份、群控设备等方式批量参与平台营销活动（如新人红包、满减优惠券、返利活动），套取平台福利资源后转售变现，造成企业营销预算浪费与经营损失；四是黄牛/刷单，通过技术手段垄断热门商品、票务等资源的抢购权，后期加价出售牟利，或通过虚假交易提升商家信用等级，破坏市场公平竞争环境。

2、进阶攻击手段：信息窃取与身份伪造

进阶攻击手段更具隐蔽性与危害性，核心目标是窃取敏感信息或伪造身份实施精准欺诈，往往给企业与用户带来不可逆的损失。主要包括：一是数据窃取，黑产通过SQL注入、漏洞攻击等方式非法入侵平台数据库，批量盗取公民个人信息（如姓名、手机号、身份证号、银行卡信息）、企业商业机密等数据，再通过暗网转售给下游黑产链条获利；二是撞库登录，利用互联网已泄露的用户账号密码信息，生成"字典表"批量尝试登录其他网站或APP，一旦匹配成功即可获取用户有效账号权限，进而实施盗刷、信息篡改等操作；三是DNS劫持，通过攻击ISP服务器、篡改用户设备DNS设置等方式，劫持用户网络访问链路，将正常访问导向钓鱼网站，或直接窃取用户传输数据；四是精准电信诈骗，黑产通过暗网获取公民精准隐私数据（如出行记录、消费习惯、家庭信息），编写定制化诈骗剧本，以客服、公检法、银行等名义实施定向欺诈，诈骗成功率显著提升。

3、核心攻击工具：技术升级下的对抗利器

黑产攻击的专业化进程，核心驱动力是攻击工具的持续迭代升级，且工具迭代速度与风控技术形成直接对抗态势。当前黑产常用的核心攻击工具可分为四大类：一是设备伪造工具，这是黑产批量操作的基础工具，如改机工具可修改设备IMEI、MAC等核心信息生成虚假设备指纹，硬改工具通过自定义ROM固件随机生成设备参数，群控工具可通过一台电脑远程控制数百台移动设备，实现标准化批量操作；二是账号验证工具，用于突破平台账号注册与验证环节的限制，如猫池设备可批量插入、控制管理数百张SIM卡，接码平台通过对接大量手机号资源，自动读取并分发短信验证码，快速完成批量账号的注册与验证；三是系统篡改工具，用于获取设备最高权限并修改业务逻辑，如Root（安卓）、越狱（iOS）工具可突破系统权限限制，Xposed（安卓）、Cydia Substrate（iOS）等Hook框架可拦截并修改APP运行代码，实现自动抢红包、一键新机、跳过风控检测等作弊功能；四是环境模拟工具，用于构建虚假的业务访问环境，如模拟器可在电脑上模拟移动设备运行环境并预装作弊软件，定制浏览器可修改User-Agent、Cookie等内核参数伪造真实用户访问痕迹，自动化脚本可按预设逻辑实现浏览器的批量注册、登录、交易等操作。

二、反欺诈体系构建

业务全流程防控体系：终端风险识别+云端风险决策+AI，一体化反欺诈解决方案；

1、风险防控流程：

2、反欺诈防控体系：

3、设备指纹

设备：用户和业务系统的载体，浏览器、手机、电脑、小程序....

设备指纹：（Device Fingerprint）生成设备ID的产品和技术，通过采集稳定的终端设备信息经过组合算法生成；

特点：

•不会因为用户对设备的日常使用而改变，不同设备的设备ID也不同；

•为每一台设备生成风险标签，标记这个设备潜在的业务风险，供分析决策使用；

采集方式：

•主动采集模式：通过SDK或JS脚本事先在终端埋点采集终端设备信息，然后将采集信息以加密方式上报到云端，云端服务根据后台复杂的算法生成唯一的设备ID返回给前端；

•被动采集：终端与后台服务器建立连接过程中，从网络报文中提取出多个维度的特征集，在后台使用机器学习算法识别终端设备；

4、基于用户行为的生物探针

黑产的网络欺诈攻击大多发生在用户登录之后，如何安全、有效且无伤用户体验的身份验证就显得尤为重要。

•

5、生物探针

生物探针通过采集用户使用终端设备（手机、电脑等）传感器数据和屏幕轨迹数据，通过特征工程、机器学习，为每个用户建立多维度生物行为特征模型，生成用户专属画像，进行人机识别、本人识别。生成用户画像使用非敏感生物学特征（不采集人脸、声纹和隐私数据），通过算法模型确保唯一性，并能对抗伪造和复制。

无感认证可以在用户登录场景提供轻量级的风控能力，应用场景包括欺诈作弊检测、身份认证（涵盖真人与机器、本人与非本人）等。该技术可与传统风控手段和认证方式共同使用，在大幅度提升用户体验的同时，有效保障用户账号、资金和隐私安全。

无感认证的基础：1）自然人、机器人的操作行为存在差异。2）每个人都有自己不可复制的行为习惯。3）通过这些差异即可识别用户的身份。

无感认证构建：通过手机采集用户使用手机的数据，然后对数据做特征工程，将抽取的特征输入训练好的算法里，算法给出是本人还是非本人的决策，当新的操作数据与源数据差异较大时，会认为存在较大风险。

生物探针应用场景：

◦登录场景：采集用户的使用终端行为数据，为其建立专属的行为模型，模型训练完成之后，当用户再次发生登录行为时，生物探针SDK就会采集用户当前的行为数据，传输后端进行匹配，判断是否本人登录，进而决定是否允许登录。

◦小额转账免短信场景：同登录场景原理，若行为匹配免短信认证，否则要求短信、指纹或人脸认证。

◦支付免密

◦信用卡、消费、借贷申请场景

6、智能验证码

验证码本质是为了防止用户利用机器人程序自动注册、登录、恶意投票、发送垃圾邮件、恶意尝试密码等登陆尝试，保证网络安全；

基本原则：对人容易、对机器难、有趣好玩；

各种验证码对比：

|------|------|------|------|
| 验证类型 | 防御能力 | 用户体验 | 综合评价 |
| 滑块拼图 | 2 | 4 | 低 |
| 图文点选 | 3 | 4 | 中 |
| 文字点选 | 3 | 4 | 中 |
| 语序点选 | 4 | 3 | 中 |
| 空间旋转 | 4 | 4 | 高 |
| 空间推理 | 5 | 3 | 高 |

7、风控中枢决策引擎系统

7.1 决策引擎

•决策引擎作用：是整个风控体系的核心枢纽，他是面向风控运营人员设计额，以规则编辑和规则执行为主要任务的计算平台，通常还包括灰度测试、数据统计分析等功能。决策引擎会对接终端风控系统、实时指标计算平台、风控数据画像、机器学习和模型平台等各类风控子系统。

•决策引擎特点：

1）灵活性：面向泛业务场景设计，灵活支持注册、登录、交易、发帖、弹幕等大量场景，只需要为不同场景编辑不同规则即可。

2）易用性：决策引擎面向风控运营人员设计，使用者不需要有编程基础，只需要鼠标点击或拖拽，简单键盘输入，即可完成场景规则设计和数据引入。

3）实时性：a、规则生效实时性，任何规则修改，线上决策集群可以秒级生效；b、规则执行实时性，大量规则的执行时间可以控制在几十毫秒以内。

7.2 规则引擎

•规则引擎作用：是决策引擎的核心，包括规则管理、规则推送、规则执行等。规则引擎是一种集成在应用程序中的组件，使用预先定义的语言编写，实现业务规则和程序代码的分离。

•规则引擎特点：

①流程分支复杂，条件判断非常多，常规的if.else编码难以实现，维护成本高。

②不确定性需求多，频率高，随时可能业务变更。

③业务变更不依赖开发人员，可以由业务人员进行变更。

•常用规则引擎：

①脚本引擎：Apache Groovy，Jruby,阿里巴巴QLExpress

②开源规则引擎：Drools

③商业规则引擎：ILOG

7.3 规则执行

•规则变更和重新加载执行

•规则执行过程

◦数据输入到规则引擎

◦规则引擎根据场景选择规则集

◦规则领域模型转换模块，把规则集转换成脚本语言

◦脚本引擎加载脚本语言

◦脚本引擎接收数据，执行规则

•

8、海量数据实时指标计算

•指标抽象模型：时间窗口、事件、主属性、副属性、计算逻辑，指标配置自动添加计算任务，即时生效；

|-------------------|-------------------------------------|----------------|--------------|-----------|------------|------------|--------------------|
| 指标类型 | 示例 | 关联风险 | 时间窗口 | 事件 | 主属性 | 副属性 | 计算逻辑 |
| 频度-出现次数统计 | 1）IP最近5分钟注册次数 2）手机号最近1小时收短信次数 | 多：垃圾注册、短信轰炸 | 1）5分钟 2）1小时 | 1）注册 2）短信 | 1）IP 2）手机号 | 无 | 求和 |
| 频度-关联个数统计 | 1）1天内同一设备接收短信的手机号个数 2）7天内同一设备充值的账个数 | 多：群控设备、群控账号 | 1）1天 2）7天 | 1）短信 2）充值 | 1）设备 2）设备 | 1）手机号 2）账户 | 1）手机号去重求和；2）账户去重求和 |
| 活跃天数 | 账户最近7天活跃次数设备最近1个月活跃次数 | 少：僵尸用户 | 1）7天 2）1个月 | 登录 | 1）账户 2）设备 | 无 | 账户登录次数求和 |
| 移动距离 | 设备最近1小时移动距离设备最近24小时移动距离 | 远：虚假定位 | 1）1小时 2）24小时 | 移动 | 设备 | 无 | 多次GPS定位，移动距离求和 |
| 常用习惯 | 账户最近7天常用设备型号账户最近30天常用登录城市 | 型号\城市不一致：账户被盗 | 1）7天 2）30天 | 登录 | 账户 | 1）设备 2）城市 | 设备型号\登录城市超过阀值 |
| 趋势计算 | 账户最近1天多笔交易支付金额递增账户最近1天先小额后大额支付 | 盗卡盗刷 | 1天 | 支付 | 账户 | 无 | 多笔支付，支付金额满足先小额后大额 |
| 其他，如最近连续次数，事件时间差等 | 账号最近5分钟密码连续错误次数 | 账户暴力破解 | 5分钟 | 登录 | 账户 | 无 | 密码连续错误求和 |

8.1 实时指标计算方案

|-----------|-------------------------------------------|-----------------------------------------------------|-------------------------------------------------------|
| 框架 | Storm | spark stream | flink |
| 架构 | 主从模式，原生流计算 | 基于spark，主从模式，可以理解为小颗粒时间维度上的spark DAG，实际上是微小时间窗口的批处理 | 主从模式，原生流计算 |
| 数据处理模型与延迟 | 亚秒级别 | 秒级 | 亚秒级别 |
| 一致性保障 | At least once,在trident模式下支持exactly once语义 | 支持exactly once | 支持exactly once |
| 容错性 | 低，ack机制 | 高，WAL和RDD机制 | 中，基于chandy-lamport distributed snapshots checkpoint机制 |
| 吞吐量 | 低 | 高 | 低 |
| 易用性 | 低，不支持SQL streaming | 高，支持SQL Streaming,Batch和Streaming采用统一编程框架 | 高，支持SQL Streaming，batch和streaming采用统一编程框架 |
| 成熟度 | 比较稳定 | 比较稳定 | 新型框架，应用范围广，高速发展中 |

9、风险态势感知系统

风险态势感知系统的方法基于统计分析的方法、基于半监督、无监督算法的聚类方法和基于业务情报的方法，这些方法基于以下几个前提：

•正常业务具有连续性和稳定性，异常事件具有波动性；

•正常用户总是表现出分布离散性，而黑产总是表现出聚集性；

风险态势感知系统流程如上，通过多种统计方法，发现系统潜在风险，通过预警系统通知运营人员进行响应

持续完善中。