资损下降 99.96% 的背后— AI 资损防控平台实战

前言摘要

在交易型互联网平台中,资金安全是生命线。传统资损防控高度依赖人工经验与后置规则,面临覆盖度低、响应滞后、规则易腐化等顽疾。本文以货拉拉 AI 资损防控平台的工程实践为例,详细拆解如何通过"数据飞轮 + 模型蒸馏 + 多智能体协同"架构,年度资损降幅 99.96%,并实现从"人工布防"到"AI 原生防控"的体系化跃迁。文章聚焦工程落地细节,涵盖自动化标注链路构建、代码/文本双模态风险识别、防腐化 Agent 设计以及交易中间件架构升级,为同类业务提供可复用的技术范式。

一、 破局:传统资损防控的"生命周期痛点"

2024 财年复盘,年度资损已攀升至数十万量级,并伴随数起真实内控故障。这并非偶然,而是典型的"业务狂奔,内控裸奔"困境。

当时我们的做法和大多数互联网公司一样:业务方在需求阶段识别风险,测试设计核对规则,研发上线前通过核对系统拦截。在业务量小、变更少时,这套"人工 Review + 规则引擎"体系还能勉强撑住。但随着业务高速迭代,局面迅速失控:

  1. 需求阶段:覆盖度与深度无保障,依赖人工经验评审,主观性强且知识难沉淀。

  2. 开发阶段:问题发现严重滞后,人工代码审查效率低下,高频变更拉长风险窗口。

  3. 发布阶段:防控措施严重后置,核对规则配置繁琐易错,策略调整缺乏灵活性。

  4. 维护阶段:人工识别资损困难,规则随业务迭代快速失效(腐化),问题场景动态变化。

面对日均数十万次代码方法变更、上万次 Commit、数千条分散的核对规则,人工 Review 根本看不过来。更致命的是,上线超过半年的核对规则,超三分之一已"事实失效" 。这才是大额资损的真正源头。那怎么办?资金内控不能靠"堆人",必须向自动化、智能化、左移化演进。

二、 架构演进:从规则驱动到 AI 原生防控体系

平台的演进并非一蹴而就,而是经历了两个关键阶段:

  • 1.0 规则探索期:基于策略规则与人工识别,解决"有无"问题,但召回率低、维护成本高。

  • 2.0 AI 辅助期:引入深度预训练模型,实现资损需求与代码的自动识别,AI 开始介入核心链路。

当前平台已形成四大核心能力矩阵:资损需求风险预警、资损代码风险预警、核对规则有效性/完整性诊断、流程管控

三、 核心技术攻坚:算法与工程的深度融合

3.1 破解"标注荒":LLM + CoT 构建自动化数据飞轮

资损场景具有正负样本极度不平衡、业务语义高度定制的特点。初期仅靠 2k 人工标注数据,模型泛化能力极差。我们设计了离线自动化标注链路:

  1. 大模型打标:利用 DeepSeek-R1 与 DeepSeek-Coder-Lite,结合 CoT 提示词,对 100 万无标签代码/需求文本进行初筛。
  2. 置信度过滤:仅保留模型高置信度输出,构建伪标签数据集。
  3. 小模型精调:使用 ModernBERT 进行 PEFT/LoRA 微调,形成"大模型标注→小模型学习→线上反馈→数据回流"的闭环。

3.2 代码/文本风险识别:特征工程与蒸馏的极致性价比

在代码识别场景中,我们面临四大挑战:上下文丢失(50%)、业务语义缺失(30%)、模型泛化差(10%)、链路特征复杂(5%)。通过 7 个版本的迭代,我们沉淀出一套高性价比方案:

  • 特征工程:提取控制流、数据流、接口链路、文本资损特征,构建双模态输入。

  • 长序列优化:引入 ModernBERT 替代传统 BERT,突破代码长度限制,召回率提升至 83%。

  • 知识蒸馏:以 DeepSeek-Coder-Lite 为 Teacher,ModernBERT 为 Student,通过软标签 + 硬标签联合蒸馏,在保持推理成本极低的同时,召回率突破 95%。

工程结论

  • 当训练数据一定时,通过蒸馏,小模型效果可接近大模型
  • bert系列模型成本和收性价比最优
  • 构造困难样本和更多无标签数据可提高模型准确率

3.3 防腐化难题:多智能体(Multi-Agent)对抗与规则自维护

识别 1.0 解决的是"新需求/新代码上线前能不能拦住",但它解决不了一个更大的问题:

已经上线的核对规则,三个月后还有效吗?
答案是:大部分已经失效了。

业务链路在变、数据库表结构在变、对端接口语义在变,但核对规则不会自动跟着变。这才是大额资损的真正源头

我们做过一个粗略的估算:上线超过半年的核对规则,超过三分之一已经"事实失效"。

怎么办?我们做了一个多智能体协作的防腐化系统。

整体思路

不靠单一模型"全知全能",而是让几个专精的智能体分工合作:

  • 测绘兵(代码分析 Agent) :读懂一段代码在做什么,识别它涉及哪些字段、表、接口、枚举值
  • 校验兵(规则分析 Agent) :读懂一条核对规则在核什么,把它和代码事实做对照
  • 通信兵(特征关系 Agent) :把代码事实和规则事实整合成一张"特征关系图",找出"代码说了一套、规则说了一套"的地方
  • 侦察兵(对抗检查 Agent) :对"图"做对抗式检查,找出新规则没覆盖到、或者老规则已经过时的地方

四个 Agent 串起来工作,自动发现哪些规则该补、哪些规则该删、哪些规则该改。

结论:

  • 提升编写核对规则效率(提升90%)
  • 自动保鲜线上规则
  • 提升维护核对规则有效性效率
  • 进一步提升核对规则保障范围

四、 展望:迈向全自动智能防控 3.0

2026年,我们将向"智能闭环·全链内控"迈进。如果说 2.0 时代我们实现了"人机共防",那么 3.0 时代的目标是"自动驾驶级"的资金内控------让 AI 具备自主规划、自主执行、自主对抗的能力。

多智能体平台化

4.1 多智能体平台化:构建"红蓝对抗"的内控矩阵

我们将不再依赖单一的线性工作流,而是构建由五大核心 Agent 组成的网状协同矩阵,实现从"发现问题"到"解决问题"的闭环:

  • 🔍 识别 Agent(哨兵) :基于多模态大模型,实时感知需求文档与代码变更中的资金风险特征,实现毫秒级预警。
  • 🧠 推导 Agent(参谋) :深入理解资金链路的上下游依赖,自动推导潜在的资损路径,生成风险传播图谱。
  • 🛡️ 保鲜 Agent(医生) :针对腐化规则进行自动诊断与修复,通过代码语义与规则逻辑的比对,自动输出规则更新建议。
  • 🚫 管控 Agent(宪兵) :接管 CI/CD 流水线,对高风险变更实施自动熔断或拦截,确保"带病"资金逻辑无法上线。
  • ⚔️ 对抗 Agent(蓝军) :模拟黑客或异常用户行为,对现有内控规则进行红蓝对抗演练,主动挖掘规则盲区。

五. 结语

资金内控不是单纯的算法竞赛,而是数据治理、模型工程、架构设计与业务理解的系统性工程。我们的实践表明:

  • 不盲目追大:蒸馏 + 小模型在资金内控场景中往往具备更高的 ROI。
  • 数据飞轮是核心:自动化标注与闭环反馈决定了模型的上限。
  • 防腐化是持久战:多智能体对抗校验是维持资金规则生命力的关键。
  • 左移即防线:将内控节点嵌入 CI/CD 流水线,是资金安全与研发效率的双引擎。

AI 正在重塑资金内控的边界,但真正的护城河,永远建立在扎实的工程实践与对资金安全的敬畏之上

相关推荐
山水洛行3 小时前
AI Agent 智能体记忆:从检索到被治理的数据系统
后端
卷无止境3 小时前
C++20 的概念与约束:让模板编程终于"说人话"
后端
Ai拆代码的曹操3 小时前
一次排查三种连接泄漏模式,再也不怕 HikariCP 连接池爆满了
后端
咪库咪库咪3 小时前
Cypher入门
后端
雪隐4 小时前
个人电脑玩AI-08让5060 Ti给你打工——我拿 Unlimited-OCR扫了 600 页书,然后悟了
人工智能·后端
AskHarries4 小时前
用 OpenClaw 做一份完整 PPT:从主题、提纲到 slide deck
后端·程序员
Csvn4 小时前
Linux 常用操作命令合集与运维实战
后端
卷无止境5 小时前
现代C++ 编译器生态及其对编程规范的影响
后端