前言
书接上文,今天我们来讨论上一篇文章遗留的问题:当一次性给大模型多个函数时,它到底怎么判断该调用哪一个?这个问题,在 AIOps、智能排障、客服问答、数据分析这类场景里特别常见。本文继续用理论结合时间,拿一个线上故障排查的例子,掰开揉碎了讲清楚:当有多个工具同时可用时,LLM 是怎么做决策的,以及我们代码里到底该怎么写
实战例子
先上代码:多函数function call
函数作用
假设现在手里有 3 个函数
-
1)获取 Pod 状态,主要通过describe 查看 k8s pod,
get_pod_status- Pod 是否 Running
- 有没有 CrashLoopBackOff
- 重启了多少次
- 最近事件里有没有探针失败、OOM、镜像拉取失败
-
2)获取业务日志,通过调用日志平台接口获取对应日志,
get_business_log- 接口为什么返回 500
- 有没有空指针
- 有没有数据库超时
- 有没有调用下游失败
-
3)获取操作系统监控数据,通过调用prometheus获取底层监控,
get_system_metrics- CPU 是否打满
- 内存是否不足
- 磁盘是否写满
- 网络流量是否异常
函数描述
- 获取 Kubernetes Pod 的状态、重启次数和事件信息,用于排查 Pod 启动失败、异常重启、探针失败等问题
- 获取业务服务日志,用于排查接口报错、代码异常、数据库超时等问题
- 获取节点操作系统监控数据,用于排查 CPU、内存、磁盘、网络资源瓶颈问题
函数描述非常重要,LLM主要靠它来指导模型决策以及函数选取
定义三个函数
python
import json
from datetime import datetime, timedelta
def get_pod_status(namespace: str = "default", pod_name: str = ""):
return {
"namespace": namespace,
"pod_name": pod_name,
"status": "CrashLoopBackOff",
"restart_count": 5,
"node": "10.10.1.23",
"events": [
"2026-04-20 11:42:11 Readiness probe failed: connection refused",
"2026-04-20 11:42:25 Container restarted",
"2026-04-20 11:42:25 Last State: Terminated, Reason: OOMKilled"
]
}
def get_business_log(service_name: str = "", start_time: str = "", end_time: str = ""):
if not start_time:
start_time = (datetime.now() - timedelta(minutes=30)).strftime("%Y-%m-%d %H:%M:%S")
if not end_time:
end_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
return {
"service_name": service_name,
"time_range": {
"start_time": start_time,
"end_time": end_time
},
"logs": [
"2026-04-20 11:41:02 [ERROR] order-service create order failed: java.lang.NullPointerException",
"2026-04-20 11:41:03 [ERROR] order-service db timeout when inserting order record",
"2026-04-20 11:41:04 [WARN] order-service retry failed, return HTTP 500"
]
}
def get_system_metrics(node_ip: str = "", start_time: str = "", end_time: str = ""):
if not start_time:
start_time = (datetime.now() - timedelta(minutes=30)).strftime("%Y-%m-%d %H:%M:%S")
if not end_time:
end_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
return {
"node_ip": node_ip,
"time_range": {
"start_time": start_time,
"end_time": end_time
},
"metrics": {
"cpu_usage": "91%",
"memory_usage": "93%",
"disk_usage": "58%",
"network_rx": "110MB/s",
"network_tx": "76MB/s"
}
}
TOOL_MAP = {
"get_pod_status": get_pod_status,
"get_business_log": get_business_log,
"get_system_metrics": get_system_metrics,
}
定义工具描述
python
tools = [
{
"type": "function",
"function": {
"name": "get_pod_status",
"description": "获取 Kubernetes Pod 的运行状态、重启次数和事件信息,用于排查 Pod 异常重启、启动失败、探针失败、CrashLoopBackOff 等问题。",
"parameters": {
"type": "object",
"properties": {
"namespace": {
"type": "string",
"description": "Pod 所在命名空间,默认 default"
},
"pod_name": {
"type": "string",
"description": "Pod 名称或者工作负载名称"
}
},
"required": ["pod_name"]
}
}
},
{
"type": "function",
"function": {
"name": "get_business_log",
"description": "获取业务服务日志,用于排查接口报错、HTTP 500、代码异常、数据库超时、调用下游失败等问题。",
"parameters": {
"type": "object",
"properties": {
"service_name": {
"type": "string",
"description": "服务名称,比如 order-service"
},
"start_time": {
"type": "string",
"description": "查询开始时间,格式 YYYY-MM-DD HH:MM:SS"
},
"end_time": {
"type": "string",
"description": "查询结束时间,格式 YYYY-MM-DD HH:MM:SS"
}
},
"required": ["service_name"]
}
}
},
{
"type": "function",
"function": {
"name": "get_system_metrics",
"description": "获取节点操作系统监控数据,包括 CPU、内存、磁盘和网络使用情况,用于排查节点负载高、资源瓶颈、系统卡顿等问题。",
"parameters": {
"type": "object",
"properties": {
"node_ip": {
"type": "string",
"description": "节点 IP 地址"
},
"start_time": {
"type": "string",
"description": "查询开始时间,格式 YYYY-MM-DD HH:MM:SS"
},
"end_time": {
"type": "string",
"description": "查询结束时间,格式 YYYY-MM-DD HH:MM:SS"
}
},
"required": ["node_ip"]
}
}
}
]
模型决定调用
下面这段代码,是整篇文章最核心的部分。
- 把用户问题和工具列表发给模型
- 如果模型决定调用函数,就执行对应函数
- 把函数执行结果再喂给模型,让它输出最终结论
python
import json
from litellm import completion
def run_agent(user_query: str):
messages = [
{
"role": "system",
"content": (
"你是一个线上故障排查助手。"
"请根据用户问题自主选择最合适的工具。"
"如果一个工具不足以定位问题,可以继续调用其他工具。"
"回答时要基于工具返回的事实,不要编造。"
)
},
{
"role": "user",
"content": user_query
}
]
while True:
response = completion(
model="doubao-seed-2.0-pro",
messages=messages,
tools=tools,
tool_choice="auto"
)
message = response.choices[0].message
tool_calls = message.tool_calls
if not tool_calls:
return message.content
messages.append(message)
for tool_call in tool_calls:
tool_name = tool_call.function.name
tool_args = json.loads(tool_call.function.arguments or "{}")
print(f"[TOOL] {tool_name} args={tool_args}")
tool_func = TOOL_MAP[tool_name]
tool_result = tool_func(**tool_args)
messages.append(
{
"role": "tool",
"tool_call_id": tool_call.id,
"name": tool_name,
"content": json.dumps(tool_result, ensure_ascii=False)
}
)
验证结果
选取了4个不同的问题,查看llm调用函数的情况
python
if __name__ == "__main__":
test_queries = [
"我的 order-service Pod 一直重启,帮我看看怎么回事",
"下单接口一直返回 500,帮我查一下日志",
"节点 10.10.1.23 最近特别卡,帮我看下是不是资源打满了",
"order-service 返回 500,而且 Pod 也反复重启,帮我整体分析一下"
]
for idx, query in enumerate(test_queries, start=1):
print(f"\n===== 测试 {idx} =====")
print(f"[USER] {query}")
answer = run_agent(query)
print(f"[FINAL] {answer}")
参考输出
并不是每一次运行都是同样的内容,这里只展现本次运行llm的输出
text
===== 测试 1 =====
[USER] 我的 order-service Pod 一直重启,帮我看看怎么回事
[TOOL] get_pod_status args={'pod_name': 'order-service'}
[TOOL] get_business_log args={'service_name': 'order-service', 'start_time': '2026-04-20 11:30:00', 'end_time': '2026-04-20 11:45:00'}
[TOOL] get_system_metrics args={'node_ip': '10.10.1.23', 'start_time': '2026-04-20 11:30:00', 'end_time': '2026-04-20 11:45:00'}
[FINAL] 经过排查,order-service Pod 持续重启的原因如下:
### 根因分析
1. **Pod 进程被强制终止**:Pod 状态为 CrashLoopBackOff,累计重启5次,进程终止原因是 `OOMKilled`(内存溢出被系统Kill),进程退出后导致就 绪探针探测失败报 connection refused,触发自动重启。
2. **业务代码异常**:服务运行时存在业务报错,包括空指针异常、订单数据插入数据库超时、重试失败返回HTTP 500,这类异常会导致服务资源占用异 常升高,是引发内存溢出的诱因之一。
3. **节点资源瓶颈**:Pod 所在节点10.10.1.23在故障时间段CPU使用率达91%、内存使用率达93%,节点本身负载极高,进一步加剧了Pod的资源紧张问题 ,加速触发OOMKill。
### 修复建议
1. 优先修复业务代码中的空指针异常、数据库超时问题,优化资源占用逻辑;
2. 调整 order-service Pod 的内存limit配置,适当调高内存上限;
3. 可将该Pod临时调度到其他低负载节点运行,同时对10.10.1.23节点进行资源扩容或者清理节点上多余的负载。
text
===== 测试 2 =====
[USER] 下单接口一直返回 500,帮我查一下日志
[TOOL] get_business_log args={'service_name': 'order-service'}
[FINAL] 根据查询order-service服务的业务日志,下单接口返回500的原因已经定位到:
1. 订单创建逻辑触发了Java空指针异常(NullPointerException)
2. 插入订单记录到数据库时出现数据库超时问题
3. 超时重试多次失败,最终接口返回HTTP 500错误
如果需要进一步排查数据库超时的根因,可以提供数据库所在节点的IP查询系统资源负载,也可以查询order-service服务的Pod运行状态确认是否存在服务本身资源不足、异常重启等问题。
text
===== 测试 3 =====
[USER] 节点 10.10.1.23 最近特别卡,帮我看下是不是资源打满了
[TOOL] get_system_metrics args={'node_ip': '10.10.1.23'}
[FINAL] 根据查询到的节点10.10.1.23最近30分钟的系统监控数据:
1. CPU使用率达91%,内存使用率达93%,二者均处于极高负载状态,这是导致节点卡顿的核心原因
2. 磁盘使用率为58%,处于正常水平
3. 网络入流量110MB/s、出流量76MB/s,也处于较高负载水平
当前该节点确实是CPU和内存资源几乎被打满导致运行卡顿,建议尽快排查占用资源过高的进程或Pod,进行资源扩容或者异常进程查杀。
text
===== 测试 4 =====
[USER] order-service 返回 500,而且 Pod 也反复重启,帮我整体分析一下
[TOOL] get_pod_status args={'pod_name': 'order-service'}
[TOOL] get_business_log args={'service_name': 'order-service', 'start_time': '2026-04-20 11:30:00', 'end_time': '2026-04-20 11:45:00'}
[TOOL] get_system_metrics args={'node_ip': '10.10.1.23', 'start_time': '2026-04-20 11:30:00', 'end_time': '2026-04-20 11:45:00'}
[FINAL] ### 故障整体分析结论
#### 1. Pod反复重启原因
order-service的Pod当前处于`CrashLoopBackOff`状态,累计重启5次,直接原因是**内存溢出被系统杀死(OOMKilled)**,同时Pod就绪探针检测失败( 连接被拒绝),进一步触发了Pod反复重启。
所在节点`10.10.1.23`的资源水位极高:CPU使用率91%、内存使用率93%,节点资源瓶颈是触发Pod OOM的重要诱因。
#### 2. 接口返回500原因
业务日志显示故障时间段内存在两类错误:
- 代码层面存在空指针异常(`java.lang.NullPointerException`)
- 订单插入操作触发数据库超时,重试失败后直接返回HTTP 500错误。
#### 临时恢复建议
1. 优先调整order-service的容器内存配额,同时调度到资源充足的节点
2. 修复代码空指针问题,优化数据库插入逻辑(增加超时时间/分库分表/异步插入)
3. 对`10.10.1.23`节点进行负载清退,降低节点资源使用率。
4组问题,llm选择了不同的、它自主决策的函数来解决对应的问题。在多函数场景里,模型并不是瞎选,而是很像运维工程师排查问题一样:
- 先判断问题在哪一层
- 再决定调哪个工具
- 如果证据不够,就继续补证据
- 最后基于事实做总结
原理解析
LLM 语义匹配
LLM 在多函数场景下的选择逻辑,本质上是拿用户问题的语义去匹配函数描述的语义,LLM会关注用户当前到底在问什么,每个函数的作用、输入参数、适 用场景分别是什么
然后模型会判断:
- 哪个函数最像解决这个问题的工具
- 需不需要调用函数
- 调用时参数该怎么补齐
- 如果一个函数不够,后面还要不要继续调别的函数
function call 的关键不只是有没有函数,更关键的是怎么描述函数,函数写得像说明书,模型就选得准,函数写得像谜语人,模型就容易整活
到这里,有为老哥可能还会继续追问:所谓的语义匹配,到底匹配的是啥?
模型在决策时,通常会综合下面几个维度:
-
问题里的关键词和上下文:
- "Pod 重启" 更容易命中
get_pod_status - "接口 500" 更容易命中
get_business_log - "节点很卡" 更容易命中
get_system_metrics
- "Pod 重启" 更容易命中
-
函数 description 的场景描述,如果你把"用于排查什么问题"写得清楚,模型就更容易做出准确判断
-
参数是否容易从当前上下文中提取,比如用户明确说了
10.10.1.23等操作系统类的资源,那模型就更容易触发监控工具 -
系统提示词里的行为约束,如果你在 system prompt 里明确要求:先查事实,再下结论;必要时可以多次调用工具,模型一般会严谨许多
function call 的效果,不是只取决于模型本身,也取决于你的工具定义和提示词设计
让模型更聪明
如果你发现模型老是选错函数,先排查下面几个点
-
1)description 写得太短,这是最常见的问题
-
不要只写:
- 获取日志
- 获取监控
-
而要写成:
- 获取业务服务日志,用于排查接口报错、代码异常、数据库超时等问题
- 获取节点操作系统监控数据,用于排查 CPU、内存、磁盘、网络资源瓶颈问题
-
-
2)函数边界不清晰,如果两个函数看起来都像什么都能查,模型就容易纠结,所以工具设计最好做到:
- 每个函数负责一类证据
- 不同函数之间边界清楚
- 尽量不要让多个函数 description 大面积重叠
-
3)参数名太抽象,像这种参数:
idnametarget,看着万能,实际上很坑,应该改为具体指某一类资源,实在有重名,那就疯狂叠下划线pod_nameservice_namenode_ip,参数名越具体,模型越不容易理解歪。 -
4)提示词没告诉模型:可以连续调用多个工具,如果 system prompt 没写这句话,模型有时会保守,只调一个函数就停,所以建议明确告诉它:
- 如果一个工具不足以定位问题,可以继续调用其他工具
- 回答必须基于工具返回的事实
- 不要在没有证据时直接下结论
-
5)最后就是选择llm,应该选择那种更擅长推理的,参数更多的llm
总结
多个函数 同时存在时,LLM 不是随机选函数,而是在做语义匹配和工具决策
在排障场景里,这个能力尤其有价值,因为问题往往横跨 Pod、应用、系统多个层面。你不需要再维护一大堆僵硬的 if/else 规则,只需要把工具边界、description、参数定义写清楚,模型就能像一个会查证据的助手一样,自己决定先调哪个函数,必要时再继续补充调用
当然,真要上生产,审计、超时、权限、限流这些工程能力,一样都不能省
联系我
- 联系我,做深入的交流
至此,本文结束
在下才疏学浅,有撒汤漏水的,请各位不吝赐教...