【测试人生】变更规则校验Agent研发的一些思路

在变更风险防控领域,规则校验和变更中观测一样,是必不可少的能力之一。面向配置类变更和SQL数据类变更,通过严格的静态规则校验可以拦截很多事故风险,保障配置或SQL发布后的安全。从变更风险防控平台的角度来说,一个规则校验系统(规则引擎),可以简单设计成多组变更场景到校验规则的映射,业务SRE角色可以编写较大业务域的通用规则,而业务研发可以编写特定业务域的专项规则,当一个变更发起时,多条规则就统一在这个系统里做执行,这样就能够实现通用的变更规则校验需求。

但是现在是2026年,是一个全民养虾的时代,以前花大力气编写的规则跟系统,不用Agent打平一遍,那怎么着都得out了。所以本文也基于这么个场景,在已有变更规则校验的标准业务流程基础上,怎么研发一个规则校验Agent,去讨论一些思路。

首先需要明确,如果做一个规则校验Agent,它相对于以往自己编写的规则,能有什么增量收益。笔者以为主要是两块,一块是研发提效,另一块是去挖掘更深层次的风险。研发提效会比较明显,传统的规则校验引擎要写代码或者匹配规则,扩展成本高,但LLM可以用简单的语义推理磨平这些研发成本。深层次风险挖掘这块,在把以前获取上下文的接口全部封装成MCP或Skill的基础上,Agent就可以自主获取不同来源的变更上下文,不断迭代做深层挖掘,这个是Agent固有的优势,传统的规则校验难以替代。

从上我们能够明显看到LLMAgent对规则校验研发带来的变革,但反过来折损点一是在于LLM输出的不确定性,二是推理时间导致的发布效率降低。对于简单的规则校验Agent,考虑「需求推理+变更上下文收集+风险点分析+结构化输出」几个步骤,一次规则校验的时间可能会达到1到2分钟。如果再做复杂一些,做深层次的风险挖掘,那么由校验开始到分析报告生成都可能有5分钟以上,这样即便分析出来的结论可能很棒,但时间损耗对于研发发布来讲可能就无法接受了。所以,Agent需要以一套「低侵入&高兼容」的模式切入到已有的规则校验流程当中,才能够给业务带来比较好的体验。

具体怎么做,从用户体验角度讲,Agent可以设计成Quick和Deep两种模式。Quick模式负责做基础且通用的规则校验,且支持开放给业务RD自行编写静态校验规则,以Instruction文本或其它方式接入到Agent当中,实际执行时会直接作用于规则校验流程,在变更前做拦截。对于Deep模式,可以自主闭源做复杂编排+异步执行,执行完毕后发通知,或者在小流量发布阶段做拦截,也都是可取的呈现方式。

Agent编排方面,需要并行部署多个垂直领域Agent,比如SQL校验Agent、配置变更Agent以及底层的代码分析Agent。关于上层是否要设置一个Dispatcher角色Agent,主要取决于是否有Chat的需要,如果没有的话则不是必须,通过既往工程代码控制Agent执行就可以。对于深度挖掘风险类的Agent编排,目前笔者还没有深入研究,有兴趣的读者可以深度实操下。

最后一个关键问题是,怎么优化Agent的效果。首先需要定指标,基础的主要是执行成功率(稳定性)、执行时长、风险拦截率和拦截准确率几块。从这些指标出发,我们可能考虑如下的优化策略:

  • 执行层面,可以整合业务实际发布校验的结果还有业务手工打标准确度的数据,将其提炼成评测集,如果有配套评测平台的话,就能够在迭代Agent期间,随时对Agent效果做评测,当然如果技术上能够实现在线RL的机制那当然更好。
  • 模型层面,如果执行延时的瓶颈在推理,可以调整模型选型或者精调来纠正模型的推理思路,不至于经常想歪,或者通过Prompt调优技巧,比如加Few-Shot或者Schema定义确保结构化输出稳定性。有一个点不确定是否有既往研究,就是应用到RAG的知识,如果给到模型精调一遍,是否能提升实际作业效果,有经验的读者也可以指正一下。
  • 编排层面,由于规则校验对发布效率有要求,建议不要做过于复杂的编排。在这个基础上,如果迭代了一段时间的话,需要有意识去梳理变更上下文数据需要获取多少,有什么依赖关系,尽量精简上下文数据的获取时间和数据量。
  • 平台层面,有些业务可能对于拦截准确率有比较高的要求,所以对于用户的Instruction或其他接入方式,可以提供标准模板,让业务编写定制化的风险降噪策略,显式干预Agent的执行效果。
相关推荐
code 小楊2 小时前
英伟达免费开源大参数模型 Nemotron 3 Super 全解析
人工智能·开源
AC赳赳老秦2 小时前
DeepSeek优化多智能体指令:避免协同冲突,提升自动化流程稳定性
android·大数据·运维·人工智能·自然语言处理·自动化·deepseek
Lupino2 小时前
OpenClaw 多 Agent:怎么配置、怎么用,普通人也能上手的一套思路
openai·agent
奋斗中的小猩猩2 小时前
OpenClaw不安全,Rust写的ZeroClaw给出满意答案
安全·rust·openclaw·小龙虾
Shining05962 小时前
AI编译器系列(二)《AI 编译器中的前端优化》
人工智能·学习·其他·学习方法·infinitensor
北京耐用通信2 小时前
耐达讯自动化CC-Link IE转DeviceNet网关:破解三菱与欧姆龙PLC协同壁垒的工业实践
人工智能·科技·物联网·网络协议·自动化
zhangshuang-peta2 小时前
安全地将人工智能助手与企业系统和数据集成
人工智能·安全·chatgpt·ai agent·mcp·peta
xier_ran2 小时前
【第二周】RAG与Agent实战08:提示词优化案例_金融文本匹配判断
自然语言处理·金融·prompt·agent·rag
AI专业测评2 小时前
2026年全景基准测试:7款主流AI写小说工具底层架构与工程化实践对比
人工智能·架构