别再写 if/else 了:让 LLM 自己决定调用哪个函数

前言

书接上文,今天我们来讨论上一篇文章遗留的问题:当一次性给大模型多个函数时,它到底怎么判断该调用哪一个?这个问题,在 AIOps、智能排障、客服问答、数据分析这类场景里特别常见。本文继续用理论结合时间,拿一个线上故障排查的例子,掰开揉碎了讲清楚:当有多个工具同时可用时,LLM 是怎么做决策的,以及我们代码里到底该怎么写

实战例子

先上代码:多函数function call

函数作用

假设现在手里有 3 个函数

  • 1)获取 Pod 状态,主要通过describe 查看 k8s pod,get_pod_status

    • Pod 是否 Running
    • 有没有 CrashLoopBackOff
    • 重启了多少次
    • 最近事件里有没有探针失败、OOM、镜像拉取失败
  • 2)获取业务日志,通过调用日志平台接口获取对应日志,get_business_log

    • 接口为什么返回 500
    • 有没有空指针
    • 有没有数据库超时
    • 有没有调用下游失败
  • 3)获取操作系统监控数据,通过调用prometheus获取底层监控,get_system_metrics

    • CPU 是否打满
    • 内存是否不足
    • 磁盘是否写满
    • 网络流量是否异常

函数描述

  • 获取 Kubernetes Pod 的状态、重启次数和事件信息,用于排查 Pod 启动失败、异常重启、探针失败等问题
  • 获取业务服务日志,用于排查接口报错、代码异常、数据库超时等问题
  • 获取节点操作系统监控数据,用于排查 CPU、内存、磁盘、网络资源瓶颈问题

函数描述非常重要,LLM主要靠它来指导模型决策以及函数选取

定义三个函数

python 复制代码
import json
from datetime import datetime, timedelta


def get_pod_status(namespace: str = "default", pod_name: str = ""):
    return {
        "namespace": namespace,
        "pod_name": pod_name,
        "status": "CrashLoopBackOff",
        "restart_count": 5,
        "node": "10.10.1.23",
        "events": [
            "2026-04-20 11:42:11 Readiness probe failed: connection refused",
            "2026-04-20 11:42:25 Container restarted",
            "2026-04-20 11:42:25 Last State: Terminated, Reason: OOMKilled"
        ]
    }


def get_business_log(service_name: str = "", start_time: str = "", end_time: str = ""):
    if not start_time:
        start_time = (datetime.now() - timedelta(minutes=30)).strftime("%Y-%m-%d %H:%M:%S")
    if not end_time:
        end_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")

    return {
        "service_name": service_name,
        "time_range": {
            "start_time": start_time,
            "end_time": end_time
        },
        "logs": [
            "2026-04-20 11:41:02 [ERROR] order-service create order failed: java.lang.NullPointerException",
            "2026-04-20 11:41:03 [ERROR] order-service db timeout when inserting order record",
            "2026-04-20 11:41:04 [WARN] order-service retry failed, return HTTP 500"
        ]
    }


def get_system_metrics(node_ip: str = "", start_time: str = "", end_time: str = ""):
    if not start_time:
        start_time = (datetime.now() - timedelta(minutes=30)).strftime("%Y-%m-%d %H:%M:%S")
    if not end_time:
        end_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")

    return {
        "node_ip": node_ip,
        "time_range": {
            "start_time": start_time,
            "end_time": end_time
        },
        "metrics": {
            "cpu_usage": "91%",
            "memory_usage": "93%",
            "disk_usage": "58%",
            "network_rx": "110MB/s",
            "network_tx": "76MB/s"
        }
    }


TOOL_MAP = {
    "get_pod_status": get_pod_status,
    "get_business_log": get_business_log,
    "get_system_metrics": get_system_metrics,
}

定义工具描述

python 复制代码
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_pod_status",
            "description": "获取 Kubernetes Pod 的运行状态、重启次数和事件信息,用于排查 Pod 异常重启、启动失败、探针失败、CrashLoopBackOff 等问题。",
            "parameters": {
                "type": "object",
                "properties": {
                    "namespace": {
                        "type": "string",
                        "description": "Pod 所在命名空间,默认 default"
                    },
                    "pod_name": {
                        "type": "string",
                        "description": "Pod 名称或者工作负载名称"
                    }
                },
                "required": ["pod_name"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "get_business_log",
            "description": "获取业务服务日志,用于排查接口报错、HTTP 500、代码异常、数据库超时、调用下游失败等问题。",
            "parameters": {
                "type": "object",
                "properties": {
                    "service_name": {
                        "type": "string",
                        "description": "服务名称,比如 order-service"
                    },
                    "start_time": {
                        "type": "string",
                        "description": "查询开始时间,格式 YYYY-MM-DD HH:MM:SS"
                    },
                    "end_time": {
                        "type": "string",
                        "description": "查询结束时间,格式 YYYY-MM-DD HH:MM:SS"
                    }
                },
                "required": ["service_name"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "get_system_metrics",
            "description": "获取节点操作系统监控数据,包括 CPU、内存、磁盘和网络使用情况,用于排查节点负载高、资源瓶颈、系统卡顿等问题。",
            "parameters": {
                "type": "object",
                "properties": {
                    "node_ip": {
                        "type": "string",
                        "description": "节点 IP 地址"
                    },
                    "start_time": {
                        "type": "string",
                        "description": "查询开始时间,格式 YYYY-MM-DD HH:MM:SS"
                    },
                    "end_time": {
                        "type": "string",
                        "description": "查询结束时间,格式 YYYY-MM-DD HH:MM:SS"
                    }
                },
                "required": ["node_ip"]
            }
        }
    }
]

模型决定调用

下面这段代码,是整篇文章最核心的部分。

  • 把用户问题和工具列表发给模型
  • 如果模型决定调用函数,就执行对应函数
  • 把函数执行结果再喂给模型,让它输出最终结论
python 复制代码
import json
from litellm import completion


def run_agent(user_query: str):
    messages = [
        {
            "role": "system",
            "content": (
                "你是一个线上故障排查助手。"
                "请根据用户问题自主选择最合适的工具。"
                "如果一个工具不足以定位问题,可以继续调用其他工具。"
                "回答时要基于工具返回的事实,不要编造。"
            )
        },
        {
            "role": "user",
            "content": user_query
        }
    ]

    while True:
        response = completion(
            model="doubao-seed-2.0-pro",
            messages=messages,
            tools=tools,
            tool_choice="auto"
        )

        message = response.choices[0].message
        tool_calls = message.tool_calls

        if not tool_calls:
            return message.content

        messages.append(message)

        for tool_call in tool_calls:
            tool_name = tool_call.function.name
            tool_args = json.loads(tool_call.function.arguments or "{}")

            print(f"[TOOL] {tool_name} args={tool_args}")

            tool_func = TOOL_MAP[tool_name]
            tool_result = tool_func(**tool_args)

            messages.append(
                {
                    "role": "tool",
                    "tool_call_id": tool_call.id,
                    "name": tool_name,
                    "content": json.dumps(tool_result, ensure_ascii=False)
                }
            )

验证结果

选取了4个不同的问题,查看llm调用函数的情况

python 复制代码
if __name__ == "__main__":
    test_queries = [
        "我的 order-service Pod 一直重启,帮我看看怎么回事",
        "下单接口一直返回 500,帮我查一下日志",
        "节点 10.10.1.23 最近特别卡,帮我看下是不是资源打满了",
        "order-service 返回 500,而且 Pod 也反复重启,帮我整体分析一下"
    ]

    for idx, query in enumerate(test_queries, start=1):
        print(f"\n===== 测试 {idx} =====")
        print(f"[USER] {query}")
        answer = run_agent(query)
        print(f"[FINAL] {answer}")

参考输出

并不是每一次运行都是同样的内容,这里只展现本次运行llm的输出

text 复制代码
===== 测试 1 =====
[USER] 我的 order-service Pod 一直重启,帮我看看怎么回事
[TOOL] get_pod_status args={'pod_name': 'order-service'}
[TOOL] get_business_log args={'service_name': 'order-service', 'start_time': '2026-04-20 11:30:00', 'end_time': '2026-04-20 11:45:00'}
[TOOL] get_system_metrics args={'node_ip': '10.10.1.23', 'start_time': '2026-04-20 11:30:00', 'end_time': '2026-04-20 11:45:00'}
[FINAL] 经过排查,order-service Pod 持续重启的原因如下:
### 根因分析
1. **Pod 进程被强制终止**:Pod 状态为 CrashLoopBackOff,累计重启5次,进程终止原因是 `OOMKilled`(内存溢出被系统Kill),进程退出后导致就 绪探针探测失败报 connection refused,触发自动重启。
2. **业务代码异常**:服务运行时存在业务报错,包括空指针异常、订单数据插入数据库超时、重试失败返回HTTP 500,这类异常会导致服务资源占用异 常升高,是引发内存溢出的诱因之一。
3. **节点资源瓶颈**:Pod 所在节点10.10.1.23在故障时间段CPU使用率达91%、内存使用率达93%,节点本身负载极高,进一步加剧了Pod的资源紧张问题 ,加速触发OOMKill。

### 修复建议
1. 优先修复业务代码中的空指针异常、数据库超时问题,优化资源占用逻辑;
2. 调整 order-service Pod 的内存limit配置,适当调高内存上限;
3. 可将该Pod临时调度到其他低负载节点运行,同时对10.10.1.23节点进行资源扩容或者清理节点上多余的负载。
text 复制代码
===== 测试 2 =====
[USER] 下单接口一直返回 500,帮我查一下日志
[TOOL] get_business_log args={'service_name': 'order-service'}
[FINAL] 根据查询order-service服务的业务日志,下单接口返回500的原因已经定位到:
1. 订单创建逻辑触发了Java空指针异常(NullPointerException)
2. 插入订单记录到数据库时出现数据库超时问题
3. 超时重试多次失败,最终接口返回HTTP 500错误

如果需要进一步排查数据库超时的根因,可以提供数据库所在节点的IP查询系统资源负载,也可以查询order-service服务的Pod运行状态确认是否存在服务本身资源不足、异常重启等问题。
text 复制代码
===== 测试 3 =====
[USER] 节点 10.10.1.23 最近特别卡,帮我看下是不是资源打满了
[TOOL] get_system_metrics args={'node_ip': '10.10.1.23'}
[FINAL] 根据查询到的节点10.10.1.23最近30分钟的系统监控数据:
1. CPU使用率达91%,内存使用率达93%,二者均处于极高负载状态,这是导致节点卡顿的核心原因
2. 磁盘使用率为58%,处于正常水平
3. 网络入流量110MB/s、出流量76MB/s,也处于较高负载水平

当前该节点确实是CPU和内存资源几乎被打满导致运行卡顿,建议尽快排查占用资源过高的进程或Pod,进行资源扩容或者异常进程查杀。
text 复制代码
===== 测试 4 =====
[USER] order-service 返回 500,而且 Pod 也反复重启,帮我整体分析一下
[TOOL] get_pod_status args={'pod_name': 'order-service'}
[TOOL] get_business_log args={'service_name': 'order-service', 'start_time': '2026-04-20 11:30:00', 'end_time': '2026-04-20 11:45:00'}
[TOOL] get_system_metrics args={'node_ip': '10.10.1.23', 'start_time': '2026-04-20 11:30:00', 'end_time': '2026-04-20 11:45:00'}
[FINAL] ### 故障整体分析结论
#### 1. Pod反复重启原因
order-service的Pod当前处于`CrashLoopBackOff`状态,累计重启5次,直接原因是**内存溢出被系统杀死(OOMKilled)**,同时Pod就绪探针检测失败( 连接被拒绝),进一步触发了Pod反复重启。
所在节点`10.10.1.23`的资源水位极高:CPU使用率91%、内存使用率93%,节点资源瓶颈是触发Pod OOM的重要诱因。

#### 2. 接口返回500原因
业务日志显示故障时间段内存在两类错误:
- 代码层面存在空指针异常(`java.lang.NullPointerException`)
- 订单插入操作触发数据库超时,重试失败后直接返回HTTP 500错误。

#### 临时恢复建议
1. 优先调整order-service的容器内存配额,同时调度到资源充足的节点
2. 修复代码空指针问题,优化数据库插入逻辑(增加超时时间/分库分表/异步插入)
3. 对`10.10.1.23`节点进行负载清退,降低节点资源使用率。

4组问题,llm选择了不同的、它自主决策的函数来解决对应的问题。在多函数场景里,模型并不是瞎选,而是很像运维工程师排查问题一样:

  • 先判断问题在哪一层
  • 再决定调哪个工具
  • 如果证据不够,就继续补证据
  • 最后基于事实做总结

原理解析

LLM 语义匹配

LLM 在多函数场景下的选择逻辑,本质上是拿用户问题的语义去匹配函数描述的语义,LLM会关注用户当前到底在问什么,每个函数的作用、输入参数、适 用场景分别是什么

然后模型会判断:

  • 哪个函数最像解决这个问题的工具
  • 需不需要调用函数
  • 调用时参数该怎么补齐
  • 如果一个函数不够,后面还要不要继续调别的函数

function call 的关键不只是有没有函数,更关键的是怎么描述函数,函数写得像说明书,模型就选得准,函数写得像谜语人,模型就容易整活

到这里,有为老哥可能还会继续追问:所谓的语义匹配,到底匹配的是啥?

模型在决策时,通常会综合下面几个维度:

  • 问题里的关键词和上下文:

    • "Pod 重启" 更容易命中 get_pod_status
    • "接口 500" 更容易命中 get_business_log
    • "节点很卡" 更容易命中 get_system_metrics
  • 函数 description 的场景描述,如果你把"用于排查什么问题"写得清楚,模型就更容易做出准确判断

  • 参数是否容易从当前上下文中提取,比如用户明确说了 10.10.1.23等操作系统类的资源,那模型就更容易触发监控工具

  • 系统提示词里的行为约束,如果你在 system prompt 里明确要求:先查事实,再下结论;必要时可以多次调用工具,模型一般会严谨许多

function call 的效果,不是只取决于模型本身,也取决于你的工具定义和提示词设计

让模型更聪明

如果你发现模型老是选错函数,先排查下面几个点

  • 1)description 写得太短,这是最常见的问题

    • 不要只写:

      • 获取日志
      • 获取监控
    • 而要写成:

      • 获取业务服务日志,用于排查接口报错、代码异常、数据库超时等问题
      • 获取节点操作系统监控数据,用于排查 CPU、内存、磁盘、网络资源瓶颈问题
  • 2)函数边界不清晰,如果两个函数看起来都像什么都能查,模型就容易纠结,所以工具设计最好做到:

    • 每个函数负责一类证据
    • 不同函数之间边界清楚
    • 尽量不要让多个函数 description 大面积重叠
  • 3)参数名太抽象,像这种参数:id name target,看着万能,实际上很坑,应该改为具体指某一类资源,实在有重名,那就疯狂叠下划线pod_name service_name node_ip,参数名越具体,模型越不容易理解歪。

  • 4)提示词没告诉模型:可以连续调用多个工具,如果 system prompt 没写这句话,模型有时会保守,只调一个函数就停,所以建议明确告诉它:

    • 如果一个工具不足以定位问题,可以继续调用其他工具
    • 回答必须基于工具返回的事实
    • 不要在没有证据时直接下结论
  • 5)最后就是选择llm,应该选择那种更擅长推理的,参数更多的llm

总结

多个函数 同时存在时,LLM 不是随机选函数,而是在做语义匹配和工具决策

在排障场景里,这个能力尤其有价值,因为问题往往横跨 Pod、应用、系统多个层面。你不需要再维护一大堆僵硬的 if/else 规则,只需要把工具边界、description、参数定义写清楚,模型就能像一个会查证据的助手一样,自己决定先调哪个函数,必要时再继续补充调用

当然,真要上生产,审计、超时、权限、限流这些工程能力,一样都不能省

联系我

  • 联系我,做深入的交流

至此,本文结束

在下才疏学浅,有撒汤漏水的,请各位不吝赐教...