AI系统测试:LLM 在系统中负责什么,怎么测试?

前言:

在上一篇文章中,总结了 AI系统测试的六层模型:输入层、规则层、LLM层、Tool层、状态层、输出层。

本文重点讨论其中最核心的一层:LLM 决策层测试

很多人说"AI系统测试",只停留在:

  • 测 Prompt

  • 看回答对不对

实际项目里的 LLM,是在做 决策

复制代码
用户输入
↓
LLM理解意图
↓
判断是否调用Tool
↓
选择Tool
↓
生成Tool参数
↓
Tool执行
↓
生成回复

所以这一篇重点是:

LLM 在系统中到底负责什么,以及测试应该怎么做。


一、LLM 在 Agent 系统中到底负责什么

在很多 AI 应用中,LLM 似乎只是一个 回答问题的模型

但在 Agent 系统中,LLM 的角色更接近:

决策引擎。

典型流程:

复制代码
用户输入
↓
LLM理解意图
↓
判断是否调用Tool
↓
选择Tool
↓
生成调用参数
↓
返回结果

例如在 WorkLog Agent 项目中,LLM需要完成几个任务:

  • 理解用户输入

  • 判断用户意图

  • 决定是否调用工具

  • 提取工具参数

  • 生成最终回复

在测试时,需要验证的不只是 回答是否正确,而是:

决策是否正确。


二、为什么 LLM 决策层容易出问题

LLM 决策层的问题通常来自三个方面。


1 意图识别不稳定

例如用户输入:

复制代码
昨天干啥来着

模型可能理解为:

  • 查询日志

  • 让系统总结

  • 普通聊天

如果意图识别错误,就会导致系统行为异常。


2 Tool 调用错误

在 Agent 系统中,LLM需要决定:

复制代码
是否调用Tool
调用哪个Tool

例如用户输入:

复制代码
今天修复登录Bug

正确行为应该是:

复制代码
调用 record_fragment

但如果 LLM 判断错误,可能:

  • 不调用工具

  • 调错工具

  • 直接生成回答


3 参数提取错误

即使 Tool 调用正确,也可能出现:

复制代码
日期错误
内容错误
字段缺失

例如:

复制代码
昨天修复登录Bug

正确参数:

复制代码
date: 2025-03-10
content: 修复登录Bug

但模型可能输出:

复制代码
date: today

这会导致数据记录错误。


三、LLM 决策层测试重点

在测试中,需要重点关注三类问题。


1 意图识别测试

验证模型是否正确理解用户输入。

例如:

复制代码
昨天修复Bug
今天写接口测试
帮我看看昨天做了什么

系统应该分别识别为:

复制代码
记录日志
记录日志
查询日志

如果识别错误,就会影响整个 Agent 行为。


2 Tool 调用测试

验证 LLM 是否正确调用工具。

例如:

复制代码
今天写了接口测试

模型应该生成:

复制代码
tool_call: record_fragment

需要测试:

  • 是否调用

  • 调用哪个工具

  • 是否重复调用


3 参数提取测试

验证 LLM 是否能正确生成工具参数。

例如:

复制代码
昨天修复登录Bug

需要验证:

复制代码
date 是否正确
content 是否完整

如果参数提取错误,系统会记录错误数据。


四、LLM 决策层测试方法

可以通过 构建测试集 的方式验证模型行为。

例如设计一组测试输入:

复制代码
昨天修复Bug
今天写测试
帮我看看昨天干了啥

然后验证:

复制代码
意图是否正确
Tool是否正确
参数是否正确

这类测试可以:

  • 手工验证

  • 或通过脚本批量运行


五、经验

在 WorkLog Agent 项目中,LLM 决策层最容易出现的问题是:

1 Tool 未触发

用户输入明确,但模型没有调用工具。


2 Tool 参数不完整

例如缺少日期字段。


3 意图误判

例如把查询日志理解成普通聊天。


因此在系统设计中,引入:

规则优先 + LLM 兜底

也就是说:

高频、明确的请求由规则处理,

复杂输入才交给 LLM。

这样可以显著提高系统稳定性。


六、小结

在 Agent 系统中,LLM 的作用不仅是生成回答,更重要的是:

决策。

测试 LLM 决策层时,需要重点关注:

  • 意图识别

  • Tool 调用

  • 参数提取

而不是只验证回答是否正确。

梳理核心:

1️⃣ Agent 决策视角

2️⃣ Tool 调用测试

3️⃣ 规则优先 + LLM兜底


下一步继续梳理,

状态层测试:为什么 AI 系统最容易出 Bug 的是状态层

复制代码
JSONL 并发写入
↓
空行
↓
KeyError
相关推荐
小仙女的小稀罕6 分钟前
适合企业行政开部门会议用的,会议同步行动项整理方法
大数据·人工智能
刀法如飞10 分钟前
Palantir技术原理深度分析:Ontology 存储结构与读写方式
人工智能·算法·架构
想你依然心痛10 分钟前
HarmonyOS 6(API 23)实战:基于悬浮导航、沉浸光感与HMAF的“数字孪生工坊“——工业制造AI智能体协同平台
人工智能·制造·harmonyos
汤姆yu13 分钟前
Codeium安装与使用全指南
ai·codeium·编程工具
__土块__13 分钟前
AI Agent MCP架构设计与技术实现全面解析
ai·架构·agent·mcp·技术实现
weixin_4280053015 分钟前
C#调用 AI学习从0开始-第1阶段(基础与工具)-第4天CoT思维链学习
开发语言·学习·ai·c#·cot
逸风尊者16 分钟前
Robotaxi 行业日报 | 2026-05-18
人工智能
Lan_Se_Tian_Ma18 分钟前
使用Cursor封装Flutter项目基建框架
前端·人工智能·flutter
白日做梦Q18 分钟前
Miniconda 新手保姆级教程:从安装到熟练使用(全程无跳步,避坑指南附全)
人工智能·深度学习·算法·机器学习
碳基硅坊18 分钟前
投标标书制作的新思路:OpenClaw能帮什么
人工智能·openclaw·智能投标