OpenAI 深夜大招暴打 Manus!智能体全家桶杀器一统 API,4 行代码轻松上手

【新智元导读】OpenAI 给开发者的深夜大礼:一套全新 API 和工具上线,智能体的开发更简单了!从此无需从不同来源拼凑各种底层 API。一个全新 API、三个内置工具,以及一个开源 SDK,让智能体开发进入 next level。

Manus 掀起的智能体风暴,再次逼急了 OpenAI。

凌晨,OpenAI 突然开启线上直播,正式放出开发者自主构建智能体的大礼包------

一个全新 API、三个内置工具,以及一个开源 SDK。

具体包括:

  • 全新 Responses API⁠**:**将 Chat Completions API 简单性与 Assistants API 工具使用功能相结合,用于构建智能体
  • 内置三大工具**:**网络搜索⁠、文件搜索⁠和计算机使用
  • 全新 **Agents SDK⁠:**用于编排单智能体和多智能体工作流程
  • **集成可视化工具:**用于追踪和检查智能体工作流程执行情况

以往,开发者构建一款智能体应用,需要从不同来源拼凑各种底层 API。

这个过程不仅耗时耗力,就像搭积木一样「摇摇欲坠」,如果一个环节出错,搭出的智能体系统随时可能崩盘。

而现在,OpenAI 推出的 Responses API 和一系列工具,直接简化了核心智能体的逻辑、编排和交互。

与 o1 Pro、Deep Research、Operator 不同,Responses API 是一个「统一 API」,可支持多轮交互和工具调用。

其中,「网络搜索工具」可让模型即时访问互联网信息,与驱动 ChatGPT Search 是同一个工具,在 Simple QA 中,经过微调后的 GPT-4o 拿下 90% 高分,GPT-4o mini 得分为 88%。

「文件搜索工具」曾在 Assistance API 中推出,便捷上传、分块、嵌入文档,以及 RAG。现在,新增了两个新功能「元数据过滤」和「直接搜索端点」。

「计算机使用工具」在 API 中被称为 Operator,并配备了专门的计算机使用模型(CUA),跟 ChatGPT 中的 Operator 使用的是同一款。

结果显示,模型在多项基准测试中刷新了 SOTA------OSWorld 中成功率 38.1%,在 WebArena 中达到 58.1%,在 WebVoyager 基于网络的交互中达到 87%。

从今天开始,计算机使用工具研究预览版,将向 3-5 级⁠的特定开发者开放,输入价格 3 美元 / 每百万个 token,输出价格 12 美元 / 每百万个 token。

另外,奥特曼开源的诺言终于兑现了一部分------Agents SDK⁠,简化多智能体工作流管理。

OpenAI 还预告,未来几周和几个月里,还计划发布更多工具和功能,进一步简化和加速在平台上构建智能体应用。

OpenAI 现场演示:几大全新工具,构建更强大智能体

ChatGPT 中已经推出的两个智能体,我们并不陌生。一个是可以浏览网页、完成各种任务的 Operator,一个是能针对任何主题生成详细报告的 Deep Research。

但现在,OpenAI 希望把这些工具和更多工具以 API 的形式发布给开发者。

过去一年里,OpenAI 也已经推出了高级推理、多模态交互、新的安全技术等全新功能,这就已经打好了构建智能体所需要的复杂多步骤任务的基础。

然而,有很多客户却反馈说,这些功能很难直接转换为可以直接工作的智能体,而是需要大量的大量的提示词迭代和自定义编排逻辑,而且缺乏足够的可见性和内置支持。

而今天这套全新工具,将把智能体构建带入 next level。

首先介绍的,就是网络搜索****工具

它允许 OpenAI 的模型访问互联网上的信息,保证用户得到的结果是最新的和准确的。

网络搜索工具与驱动 ChatGPT Search 的是同一个工具,它在底层由一个经过微调的模型驱动,此模型就是经过微调的 GPT-4o 或 4o mini。

它非常擅长处理从网络获取的大量数据,找到相关的信息片段,并在响应中清晰地引用它们。

在 Simple QA 中,GPT-4o 达到了 90% 的最佳水平。

接下来介绍的,是文件搜索工具

负责展示的 OpenAI 研究者表示,这是自己最喜欢的工具。

去年,OpenAI 就在 Assistance API 中推出了文件搜索工具,为开发者提供简便的方式来上传、分块和嵌入文档,并且轻松实现 RAG 操作。

而今天,他们在文件搜索工具中推出两个新功能。

第一个是元数据过滤。此功能让用户可以为文件添加属性,轻松筛选出与查询最相关的内容。

第二个是直接搜索端点。这样我们就可以直接搜索您的向量存储,而无需先通过模型过滤查询。

也就是说,我们可以使用网络搜索来处理公共数据,用文件搜索来处理私有数据了。

第三个介绍的,就是 Computer Use 工具

它是 API 中的 Operator,可以让你控制正在操作的计算机,比如一个虚拟机,或者仅有图形用户界面而没有 API 访问权限的传统应用程序。

如果想要自动化这类任务,并在此基础上构建应用程序,就可以直接使用 Computer Use。

Responses API

另外,OpenAI 还希望从基本原则出发,为这些工具设计最佳的 API。

2023 年推出的 Chat Completions 和 GPT-3.5 Turbo 中,所有的 API 交互都仅限于文本输入和输出。

此后,OpenAI 又引入了多模态功能,包括图像、音频。

此外,像 o1 Pro、Deep Research Operator 这样的产品,都需要在后台执行多轮模型交互和多次工具调用。

因此,他们希望构建一个足够灵活的 API 基础接口,能支持多轮交互和工具调用。

这个新的 API,就被命名为 Responses API。

在此前的 Chat Completions 中,只需选择上下文,选择一个模型,就能获得响应。

而接下来,研究者将展示如何用 Responses API 构建一个个人造型师助手。

然后就可以直接问它:现在时尚圈的最新流行趋势是什么?

不过,它还应该了解用户的个人喜好。

为此,他们建立了一个向量存储库,里面记录了团队成员的日常穿搭记录。在操作中,可以筛选向量存储中的文件,只显示与目标用户相关的内容。

然后就可以问造型助手:Ilan 喜欢穿什么,你能总结一下吗?它立刻给出了准确的总结。

但是要打造一个更好的助手,我们还需要让他能从网上获取最新数据。为此,就要添加网络搜索工具。

接下来,他们考验了是否能用文件搜索工具,来了解 Kevin 小哥的穿衣喜好,然后用网络搜索工具找到附近让他感兴趣的商店。

模型调用了文件搜索工具,了解 Kevin 的穿衣风格,然后调用网络搜索工具,根据他的位置------东京,寻找他喜欢的商店。

让人惊喜的是,模型只用了一次 API 调用,就在东京找到了好几家巴塔哥尼亚专卖店,完全符合 Kevin 的品味。

但是,这还不够!一个称职的个人造型助手,应该可以直接帮你购物。

为此,他们添加了 Computer Use 工具,要求助手帮 Kevin 买一件黑色巴塔哥尼亚夹克。

在电脑本地运行 Docker 容器后,把截图发给模型,它就会分析计算机的状态,发出下一步指令。

研究者执行操作后,再拍一张截图发给模型,它就会循环操作,直到任务完成。

Agents SDK

在实际开发任务中,应用会更复杂,比如我们需要开发一个客服智能体,它要能处理退款,还能回答常见的客服问题、处理订单和账单。

为此,OpenAI 去年已经发布了一个名为 Swarm 的 SDK,让智能体的协同调度变得简单。

今天,他们家决定将 Swarm 升级为 Agents SDK。

研究者 Ilan 介绍说,自己曾投入大量时间合作企业和开发者,帮他们构建智能体,也亲身体会到看似简单的想法想落地却十分复杂。

Agents SDK 的理念就是:保持简单,同时用直观简便的方式构建更复杂强大的功能。

比如接下来的考验就是,不小心订了太多件巴塔哥尼亚的衣服,所以需要退货。

本来,可以直接添加一个退货工具,在提示词中指示就能实现了,但这就存在一个问题:业务逻辑都混在一起,会让智能体更难测试。

而如果采用多智能体脚本,就能独立开发和测试各个模块。

为此,他们专门引入了一个退货智能体。Swarm 中特别受欢迎的标准 Python 函数,都被引入了 Agents SDK。

现在,他们已经有了一个造型师智能体,和一个退货智能体,然后需要实现一个简单却强大的概念------任务交接。

它的强大之处就在于,一个智能体处理对话后,将其转交给另一个智能体时,对话内容保持不变,只需在后台替换指令和工具,这就能为对话的每个环节加载上下文。

整个流程是这样的:分类智能体将任务转到了客服智能体,然后客服智能体主动调用了 getPastOrders 函数,让我们看到了 Kevin 所有的巴塔哥尼亚商品。

本来这种情况需要手动添加调试语句的,但 Agents SDK 的一大优势就是内置了监控和追踪功能。

在仪表盘中,我们可以看到所有具体交接的过程

以上展示的,都是 Agents SDK 提供的开箱即用功能,它甚至还配置了安全防护机制和生命周期事件处理。

而且,它是一个开源框架。只需执行 pip install openai-agents,就可以安装使用了。

在结束之前,Ilan 实际执行了一下退款操作。

「你知道吗?抱歉了,Kevin。把这些都退掉吧。」Ilan 打趣的说。「那我穿什么呀?Kevin 要被冻着了,」现场大家都笑了出来。

「是啊,让我们看看。商品还真不少。好了,退回这么多巴塔哥尼亚的商品确实需要点时间。」Ilan 开始执行退款。

他在智能体中打出了「get rid of all of them」指令。几秒钟后,Kevin 的巴塔哥尼亚就全都退款成功了。

「那么系统内部是如何运作的?如何进行调试?如何更深入地了解整个过程?」Kevin 问道。

对此,Ilan 回答说,「我们可以通过追踪界面来查看所有这些信息。这提供了一种非常简洁直观的方式来构建这类应用。」

统一 API,4 行代码即可上手

Responses API 是 OpenAI 最新的 API 基础组件,旨在利用 OpenAI 内置的工具构建智能体。

它结合了 Chat Completions 的简单性与 Assistants API 的工具使用能力。随着模型能力不断发展,他们相信 Responses API 将为开发者构建具备自主能力的应用提供更加灵活的基础。

通过一次 Responses API 调用,开发者即可借助多个工具和模型交互回合,解决日益复杂的任务。

作为开始,Responses API 将支持新的内置工具,包括网页搜索、文件搜索和计算机使用。

这些工具旨在协同工作,将模型与现实世界连接起来,从而更高效地完成任务。

此外,它还带来了若干易用性改进,比如统一的基于项目的设计、更简单的多态机制、更直观的流式事件,以及 SDK 辅助功能(例如 response.output_text),以便轻松获取模型生成的文本输出。

Responses API 专为那些希望在应用中轻松结合 OpenAI 模型和内置工具的开发者设计,避免了集成多个 API 或外部供应商的复杂性。

这个 API 还使得数据更易于存储在 OpenAI 平台上,以便开发者通过追踪(tracing)和评估(evaluations)等功能衡量智能体的性能。

此外,他们也特别提醒,即使数据存储在 OpenAI 上,他们的模型默认也不会使用企业的数据进行训练。

从今天起,所有开发者均可使用 Responses API,且无额外使用费用------相关的 token 和工具调用将按照他们定价页面上的标准费率计费。

下图是 Responses API 调用文本模型的价格。全部模型的定价可以参考他们的定价页面。

地址:platform.openai.com/docs/pricin...

如需了解更多,可以查看 Responses API 快速入门指南。

地址:platform.openai.com/docs/quicks...

2 年磨一剑

OpenAI 的研究员 Atty Eleti 还在 X 上分享了设计 Responses API 的故事。

如今,模型不再局限于文本,而是多模态------能处理图像、音频,甚至更多。

他们具备了智能体的能力,可以调用一个或多个工具,甚至在「说话」之前会「思考」。

这些变化,让 OpenAI 过去两年开发的 Chat Completions API 和 Assistants API 的短板暴露无遗。

Atty 还贴出了一张加班图

Chat Completions API 是一个无状态的 API,每次调用都需要传递全部上下文,对于多模态数据效率极低。而且,它也不支持工具调用,流式处理的实现异常复杂

Assistants API 虽然支持工具,但由于设计过于复杂,高抽象带来的学习曲线让人望而却步。后台处理的架构虽然强大,却牺牲了速度。

由此,⁠Responses API 诞生了,它是 OpenAI 过去两年经验结晶,集合了前者简洁性和后者强大功能,既容易上手,又能满足复杂需求。

只需 4 行代码,即可上手⁠Responses API,文件搜索、网络搜索、函数调用、结构化输出功能,只要一个参数就搞定。

这对现有 API 意味着什么

· Chat Completions API⁠

OpenAI 依旧为 Chat Completions API 添加新模型和功能。不需要使用内置工具的开发者,可以放心使用 Chat Completions。

只要新模型的功能不依赖于内置工具或多次模型调用,就会持续在 Chat Completions 中发布这些新模型。

不过,Responses API 是 Chat Completions 的超集,且具备相同出色的性能,因此,对于新的集成,OpenAI 建议开发者优先选择 Responses API。

· Assistants API

根据开发者在 Assistants API 测试版期间的反馈,OpenAI 将其关键的改进融入到了 Responses API,使其更加灵活、快速且易于使用。

目前,OpenAI 正致力于实现 Assistants API 与 Responses API 之间完整的功能对齐,包括对 Assistant 和 Thread 等对象,以及 Code Interpreter 工具的支持。

当这一进程完成后,OpenAI 计划正式宣布弃用 Assistants API,预计在 2026 年中停止使用。届时,他们将提供清晰的迁移指南,帮助开发者从 Assistants API 平稳迁移到 Responses API,同时完整保留所有数据并迁移应用程序。

在 OpenAI 正式宣布弃用 Assistants API 之前,仍将继续为其提供新的模型更新。

Responses API 中的内置工具

网络搜索

当使用 GPT-4o 和 GPT-4o mini 模型时,网络搜索功能可作为内置工具,并支持与其他工具或函数调用进行组合使用。

值得一提的是,Responses API 中的网络搜索,使用的是和「ChatGPT 搜索」同款的模型。

基于此,开发者可以获得快速、最新的答案,并附带来自网络的清晰相关引用。

在早期测试中,开发者利用网络搜索构建了各种应用场景,包括购物助手、研究智能体和旅行预订助手------所有需要网络实时信息的应用。

API 中使用网络搜索生成的响应包含源链接,如新闻文章和博客文章,让用户能够深入了解更多信息。通过这些清晰的内联引用,用户可以更直观地获取信息,同时内容所有者也获得了接触更广泛受众的新机会。

任何网站或发布者都可以选择⁠在 API 的网络搜索中显示。

目前,所有开发者都可在 Responses API 预览版中使用网络搜索工具,并且还可以在 Chat Completions API 中直接使用微调搜索模型 gpt-4o-search-preview 和 gpt-4o-mini-search-preview。

价格⁠方面,GPT-4o 搜索每千次查询起价 30 美元,4o mini 搜索每千次查询起价 25 美元。

文件搜索

文件搜索工具支持多种文件类型、查询优化、元数据过滤和自定义重排序,可以提供快速、准确的搜索结果。

而且,通过 Responses API,只需几行代码就能完成集成。

在经过改进的文件搜索的加持下,开发者可以轻松地从大量文档中检索相关信息。

文件搜索工具可用于多种实际场景,包括使客服人员轻松访问常见问题解答、帮助法律助理为专业人士快速参考往期案例,以及协助编程智能体查询技术文档。

同样的,所有的开发者都可以在 Responses API 中使用文件搜索工具。

此外,OpenAI 还为向量存储 API 对象添加了新的搜索端点,可以直接查询数据用于其他应用程序和 API。

价格方面,每千次查询为 2.50 美元,文件存储费用为 0.10 美元 / GB / 天,首个 GB 免费。

计算机使用(CUA)

为了构建能够完成计算机任务的智能体,开发者可以在 Responses API 中使用计算机使用工具,该工具由支持 Operator 的计算机使用智能体(CUA)模型提供支持。

如前所述,这个研究预览版模型在多项基准上刷新了 SOTA。

内置的计算机使用工具能够捕获模型生成的鼠标和键盘操作,让开发者能够将这些操作直接转换为环境中的可执行命令,从而实现计算机任务的自动化。

开发者可以使用计算机使用工具,来自动化基于浏览器的工作流程,如执行网络应用程序的质量保证或在传统系统中执行数据录入任务。

对于那些缺乏 API 和标准化数据的企业,就可以利用计算机使用工具自动化复杂的运营流程。

在最近与一家主要社区服务组织的试点项目中,Luminai 仅用几天时间就实现了申请处理和用户注册流程的自动化------这是传统 RPA(机器人流程自动化)经过数月努力都难以实现的。

在去年通过 Operator 推出 CUA 之前,OpenAI 进行了广泛的安全测试和红队测试,解决了三个关键风险领域:滥用、模型错误和前沿风险。

为了应对通过 API 将 CUA 功能扩展到本地操作系统带来的风险,他们又进行了额外的安全评估和红队测试。

研究人员还为开发者添加了多重防护措施,包括防止提示词注入的安全检查、敏感任务的确认提示、环境隔离工具,以及增强对潜在违规行为的检测。

尽管采取了这些防护措施,但模型在非浏览器环境中仍可能出现意外错误。

例如,CUA 在 OSWorld 中成功率仅为 38.1%,这表明该模型在操作系统任务自动化方面尚未达到高度可靠性。因此在这些场景中,OpenAI 建议还需要有人类的监督。

开源 Agents SDK

除了构建智能体的核心逻辑并为其提供工具访问权限以确保实用性外,开发者还需要管理智能体工作流程。

全新 Agents SDK 简化了多智能体工作流程的管理,较 2024 年发布的实验性 SDK Swarm⁠有了显著改进。

目前,Swarm 在 GitHub 上已经有 19k 星,⁠已被开发者社区广泛采用,并在多个客户中成功部署。

项目地址:github.com/openai/swar...

此次,Agents SDK 的改进包括:

  • 智能体:易于配置的 LLM,具有清晰的指令和内置工具
  • 交接:智能体之间的智能控制转移
  • 防护机制:可配置的输入输出验证安全检查
  • 追踪和可视化:通过可视化智能体执行轨迹来调试和优化性能

Agents SDK 适用于各种实际应用场景,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售潜客开发。

例如,Coinbase⁠使用 Agents SDK 快速开发并部署了 AgentKit,这是一个让 AI 智能体能够无缝连接加密钱包和各种区块链活动的工具包。

Coinbase 仅用几小时就将其开发者平台 SDK 的自定义操作集成到了一个功能完备的智能体中。

AgentKit 的精简架构简化了添加新智能体操作的流程,让开发者能够更专注于有价值的集成,而不是消耗在复杂的智能体配置上。

视频详情

Agents SDK 可与 Responses API 和 Chat Completions API 协同工作。

同时,该 SDK 也支持其他提供商的模型,只要它们提供 Chat Completions 类型的 API 端点。开发者现在就能将其集成到 Python 代码库中,Node.js 支持也即将推出。

在设计 Agents SDK 时,OpenAI 团队从社区中其他优秀项目获得启发,包 Pydantic⁠、Griffe⁠和 MkDocs⁠。

2025 年,无疑是智能体元年。

OpenAI 最新动向,已经释放出了一个清晰的信号,标志着 ChatGPT 和开发者工具从简单问答系统,升级为能在现实世界中实际行动的助手。

参考资料:

x.com/OpenAI/stat...

相关推荐
魔障阿Q1 分钟前
Yolo-Uniow开集目标检测本地复现
人工智能·python·yolo·目标检测·计算机视觉
xieyan08117 分钟前
论文阅读_大型语言模型个性化劝说的黑暗模式
论文阅读·人工智能·语言模型
用户97044387811611 分钟前
如何在自己的网站接入API接口获取数据
人工智能·python·开源
黄小墨( ̄∇ ̄)13 分钟前
DeepSeek-R1 论文阅读总结
论文阅读·人工智能
量子位21 分钟前
14B 小模型逆袭翻译赛道,论文财报实测超 Claude,不信试试 “我命由我不由天”
人工智能·llm·claude
说私域21 分钟前
裂变营销策略在“开源链动2+1模式AI智能名片S2B2C商城小程序”中的应用探索
人工智能·小程序·开源·零售
前端大卫23 分钟前
【DeepSeek-R1满血版】VSCode 也支持了,免费无限制!
人工智能·通义灵码·豆包marscode
量子位23 分钟前
高阶智驾 “破壁人” 来了:13 万标配激光雷达,还能「车位到车位」
人工智能·llm
深图智能29 分钟前
yoloV5训练visDrone2019-Det无人机视觉下目标检测
人工智能·yolo·目标检测·计算机视觉
手插口袋谁也不爱♡1 小时前
本地化语音识别CapsWriter结合内网穿透远程会议录音秒变文字稿
人工智能·语音识别