AI 代理的难题:工具调用是怎么升级的

过去两年里,AI 调用工具的方法基本没变,大家也没怎么抱怨。

一开始,这个方法看起来很聪明。你把一堆工具的信息(名字、说明、需要什么参数)告诉大模型,它就不只是聊天机器人了。比如你问:"巴黎今天天气怎么样?" 模型会输出一段标准的 JSON 数据,后台服务器拿着它去查天气 API,再把结果交回来,模型整理成一句自然的话回复你。整个过程你看不到,但感觉就像 AI 自己会查资料一样,很神奇。

但这种"魔法"背后,其实是很机械的流程,而且越来越容易出问题。


问题在代理变复杂时暴露出来。

比如你让 AI 帮你找出 Gmail 里所有 Bob 发来的邮件。听着简单对吧?

它先调用 search_email("Bob"),拿到一堆邮件 ID。然后对每个 ID 再分别调用 read_email(id_1)read_email(id_2)......一次又一次。而且每一步都要准确记住那些 ID,稍微出错就会出问题。

更糟的是,每次工具返回的内容都会被塞进模型的"上下文"里,就像不断往背包里塞东西:各种没用的元数据、HTML 代码、广告内容......很多根本用不上,却占地方。

写博客的代理更惨。它先搜索网页,拿到一堆网址;再抓取每个网址,得到大量 HTML;等到真正开始写文章时,还得把这些乱七八糟的原始内容重新整理再喂给写作工具。明明几行代码几毫秒就能做完的事,却浪费了成千上万的 token。

有人说,那就把上下文窗口做大一点。但问题不在"能装多少",而在"浪费太多"。模型真正能好好思考的空间,大概也就 12 万到 20 万 token 左右。不是容量不够,是效率太低。


Anthropic 给出的解决办法,不是换一个新模型,而是换一种思路。

核心叫做:程序化工具调用

简单说,不要让模型一次次用 JSON 去"指挥"工具,而是让它自己写一小段代码,把所有步骤一次性搞定。

给模型一个可以安全执行代码的环境。把工具当成函数。然后模型可以写一个小程序,里面有循环、判断、变量,把整个流程一次性跑完。

这就像:与其让莎士比亚先学一个月普通话,再用普通话写剧本,不如直接让他用英语写。既然模型本来就擅长写代码式的逻辑,何必绕一圈?

实验发现,这种方法能减少 30% 到 50% 的 token 使用量,速度也更快。而且改造成本不高:加一个代码执行工具,做点小改动,就能用。


还有其他改进。

动态过滤

以前抓网页时,会把整个网页的 HTML 全部丢进模型,包括导航栏、广告、页脚。现在会先自动过滤,只留下有用的正文内容。光这一点,平均就能省下 24% 的 token。

工具搜索

如果一个系统里有几十上百个工具,以前是每次对话都把所有工具说明塞进上下文,很浪费。现在只加载一个"工具搜索工具",需要哪个工具再去找。没用到的工具就不出现。最多可以减少 80% 的上下文占用。

工具使用示例

有些工具参数特别复杂,比如客服系统里的 create_ticket,字段多又有各种规则。光看说明文档模型可能理解不透。

现在可以给模型一些示例调用,让它"照着例子学"。准确率从 72% 提升到 90%,在真实系统里,这种提升非常关键。


总的来说,这四个改进说明一件事:工具调用正在变成熟。

一开始,它只是个聪明的小技巧------让模型输出 JSON,就能调用工具。

但随着 AI 代理变复杂,这种方法开始显得笨重。

新的做法没有推翻旧基础,而是让它更高效:

用代码替代繁琐的来回调用,减少无用信息,按需加载工具,用示例教模型。

魔法还在。

只是现在更聪明、更省资源了。

相关推荐
勾股导航7 小时前
大模型Skill
人工智能·python·机器学习
卷福同学9 小时前
【养虾日记】Openclaw操作浏览器自动化发文
人工智能·后端·算法
春日见9 小时前
如何入门端到端自动驾驶?
linux·人工智能·算法·机器学习·自动驾驶
光锥智能9 小时前
从自动驾驶到 AI 能力体系,元戎启行 GTC 发布基座模型新进展
人工智能
luoganttcc9 小时前
自动驾驶 世界模型 有哪些
人工智能·机器学习·自动驾驶
潘高9 小时前
10分钟教你手撸一个小龙虾(OpenClaw)
人工智能
禁默9 小时前
光学与机器视觉:解锁“机器之眼”的核心密码-《第五届光学与机器视觉国际学术会议(ICOMV 2026)》
人工智能·计算机视觉·光学
深小乐10 小时前
不是DeepSeek V4!这两个神秘的 Hunter 模型竟然来自小米
人工智能
laozhao43210 小时前
科大讯飞中标教育管理应用升级开发项目
大数据·人工智能
rainbow72424410 小时前
AI人才简历评估选型:技术面试、代码评审与项目复盘的综合运用方案
人工智能·面试·职场和发展