一文详解ChatGPT Agent——OpenAI定义未来大模型智能体发展的标杆!

前言

AI Agent(智能体) 是2025年人工智能大模型领域最火热的概念,也被誉为大模型技术皇冠上的明珠。当前市面上出现了各种各样的AI Agent和Agent构建工具,例如Dify字节Coze腾讯元宝LangChain等。

市面上形形色色的智能体不禁让大家发问,"好的AI Agent 应该是什么样的呢?"。拥有五亿多用户的ChatGPT给出了答案,那就是深度研究DeepResearch +浏览器自动化Operator +沙盒环境代码解释器 +多模态 +调用自定义工具 各项功能All in One, 这就是OpenAI最新发布的ChatGPT Agent

一、ChatGPT Agent的卓越性能

2025年7月17日上午10点,SamAltman携OpenAI的华人天团召开了新品发布会,推出了ChatGPT Agent,这也是几个月来奥特曼首次现身发布会,足以见到OpenAI对于ChatGPT Agent的重视程度。

在OpenAI 强大的基座模型性能和卓越产品理解的加持下,ChatGPT Agent从诞生起就立足于解决现实问题,力争成为最好的AI Agent智能体。根据官方给出数据,ChatGPT在HLE人类最后测试的评分中取得41.6%的准确率,HLE是一款覆盖了100多个科研问题的博士级别的跨学科难题,单次回答41.6%的准确率可以说它就是地表最强Agnet了。

此外ChatGPT Agent在数学、网络信息检索、网页操作准确率以及表格操作能力方面也都达到了最优水平!

在数据分析和数据建模方面,ChatGPT更是远超人类平均水平,是目前最顶尖的AI数据分析工具之一!

二、ChatGPT Agent实战表现

2.1 史上最强婚礼策划师---ChatGPT Agent

OpenAI在发布会上通过几个生动的案例让世界看到了通用智能体的最佳落地形态:

  1. 个人生活助理:

    1. 场景: 为朋友的婚礼做准备。
    2. 执行过程: Agent自动访问婚礼信息网站,了解着装要求、天气和地点 -> 在网上搜索符合"中等奢华"要求的服装和鞋履选项 -> 搜索并对比婚礼场地附近的酒店空房情况 -> 提出合适的礼物建议 -> 最后生成一份包含所有研究结果和链接的综合报告。
  2. 商业采购与定制:

    1. 场景: 为团队订购500张定制的笔记本贴纸。
    2. 执行过程: Agent使用图像生成API根据提供的吉祥物图片设计贴纸样式 -> 访问用户指定的电商网站(Sticker Mule)-> 上传设计稿并设置订单数量 -> 将商品加入购物车,并停在支付页面前等待用户确认和接管支付。
  3. 数据分析与报告生成:

    1. 场景: 分析内部评估数据并制作一份PowerPoint演示文稿。
    2. 执行过程 : Agent通过API连接到Google Drive,找到并读取指定的评估数据文件 -> 编写代码处理数据并生成图表 -> 调用图像API创建装饰性图片 -> 将所有内容整合并生成一个可直接下载和编辑的 .pptx 文件
  4. 复杂行程规划:

    1. 场景: 规划一个在单个赛季内访问全部30个美国职业棒球大联盟(MLB)球场的最佳路线。
    2. 执行过程 : Agent搜索所有球队的赛程,特别是特殊的"Hello Kitty之夜" -> 编写代码进行路线优化 -> 最终生成一份包含详细行程、日期和地图的电子表格 (Spreadsheet)

最令笔者印象深刻的是ChatGPT Agent全自动自行婚礼规划的任务。浪漫归浪漫,这可是一项复杂度极高的任务,并且伴随着筹备的进行很有可能不断的调整计划。而ChatGPT Agent是怎么做的呢?

  1. 首先它会向用户确认基本信息,在核对完成后开始执行。
  2. 在实际运行过程中,ChatGPT能够自主交替执行DeepResearch和Operator两项核心功能,前者用于深度挖掘网络文本信息,例如整合一些流行的婚礼方案等,而后者用于全自动的网页操作,例如帮忙采购一些婚礼所需的物品等。
  3. 婚礼方案有太多的细节需要考虑和调整,ChatGPT Agent考虑到与用户共同协作才是解决问题的根本,因此ChatGPT Agent支持用户随时打断、随时核验并补充信息。例如发布会上临时想到新郎的鞋子尺码不对,用户就可对原始的信息进行修改。ChatGPT Agent在收到补充信息后,也能够调整策略继续执行。

不得不说,在其它厂商都追求让Agnet全自动自主完成数个小时任务的时候,ChatGPT Agent的实时交互运行模式另辟蹊径,是最让人放心的使用方法。

最终发布会上ChatGPT Agent完成的婚礼方案,信息准确,内容完整,不仅制定了完整的流程,而且还调用Python代码解释器,估算了每个环节的费用预算,同时还允许用户继续补充信息,然后一起完善方案。

2.2 不止是活动策划师,更是工作多面手!

除了强大的活动总结和策划能力外,ChatGPT Agent还是一位工作多面手。OpenAI在发布会上让ChatGPT Agent担任设计师角色,调用GPT-4O生成一些主题图案,并自动下单制作贴纸来增加氛围。

ChatGPT Agent能够连接海量的API服务并打通和各项内置工具的关联,例如可以接入谷歌云盘读取数据文件,并在沙盒环境内编写代码进行数据分析,最终借助绘图能力创建图文并茂的PPT,整个过程一气呵成,非常流畅。

三、ChatGPT Agent核心能力总结

3.1 ChatGPT Agent核心特色

通过发布会的实例演示,相信大家都能感受到ChatGPT Agent的核心能力在于其强大的工具整合能力智能化、协同化的工作方式。这里笔者对ChatGPT的核心特色进行总结如下表:

特色分类 详细说明
统一的工具箱 (Unified Toolbox) Agent可以在一个统一的虚拟环境中无缝切换和使用多种工具: • 文本浏览器: 类似Deep Research,用于快速、高效地阅读和搜索大量网页内容。 • 视觉浏览器: 类似Operator,用于与网页的UI元素进行交互,如点击按钮、填写表单、拖拽等。 • 代码终端 (Terminal): 用于运行代码、生成和分析文件(如电子表格、幻灯片),以及调用API。 • API连接器: 可以连接公共API或用户授权的私有数据源,如Google Drive, Google Calendar, GitHub, SharePoint等。 • 图像生成API: 可以在任务中创建演示文稿所需的图表或装饰性图片。
智能决策与自主性 • 智能工具选择: 通过强化学习 (Reinforcement Learning) 训练,模型能根据任务需求智能地判断"何时"使用"何种"工具,以最高效的方式解决问题。 • 自我修正与优化: 模型会审视自己生成的结果(如幻灯片初稿),并进行迭代优化,以交付更精良的最终成品。
协同与交互性 • 可中断与重定向: 用户可以在任务执行的任何时刻打断Agent,并给出新的指令或补充信息。 • 主动询问与确认: Agent在遇到不明确的指令时会主动请求澄清;在执行关键步骤(如发送邮件、下单购买)前会请求用户确认。 • 用户接管模式 (Takeover Mode): 用户可以随时暂停Agent,亲自接管浏览器或终端,手动输入敏感信息(如密码、信用卡号)或修正操作,然后再交还给Agent继续执行。

3.2 ChatGPT Agent与Manus的区别

看到这里,可能有的小伙伴觉得这不就是OpenAI版本的Manus吗?其实不然,尽管功能上类似,但从技术实现上来说,Manus充其量只是一个Demo产品,甚至开源的Suna都可以超过Manus的性能。(想体验通用AI智能体效果的可以看笔者的文章 最强开源通用智能体Suna部署调用实战---100%吊打Manus

相比Manus, ChatGPT Agent才算是运行足够稳定,功能足够完整,性能足够强悍且确实能够解决现实问题的智能体产品。不同于Manus只做技术的组装,OpenAI为了实现通用的Agent,不惜对基座模型进行了有针对性的强化学习后训练,让模型能够更好地组织和调用DeepResearch、Operator、代码解释器等各项工具,同时还进一步强化了多步调用工具的连贯性和一致性。

目前ChatGPT对各个工具的调用都是OpenAI久经打磨的成熟的技术方案,在这些技术的加持下,ChatGPT Agent绝对不是好看的花瓶,而是目前地表综合性能最强的智能体没有之一。

四、总结

ChatGPT Agent的诞生无疑是极具里程碑意义的,其实早在23年7月,GPT-4的FunctionCalling工具的诞生就给了极大的震撼,我开始认真思考大模型的能力边界是什么。现在ChatGPT Agent给了我答案,大模型的能力边界的回答就是"无限"!。

笔者目前正在撰写LangChain&LangCraph智能体搭建系列教程,预计20节,目前已更新三节:

以上就是本期分享的内容,大家看完感兴趣可关注笔者掘金账号和专栏,更可关注笔者的同名微信公众号:大模型真好玩LangChain智能体开发教程 分享的全部资料均可在微信公众号私信笔者: LangChain智能体开发 免费获得。

相关推荐
雄狮少年17 分钟前
智能体服务封装
开发语言·windows·python
云天徽上34 分钟前
【数据可视化-70】奶茶店销量数据可视化:打造炫酷黑金风格的可视化大屏
python·信息可视化·数据分析·数据可视化·pyecharts
IMER SIMPLE1 小时前
人工智能-python-OpenCV 图像基础认知与运用-图像的预处理(1)
人工智能·python·opencv
ku_code_ku1 小时前
Django关于ListView通用视图的理解(Cursor解释)
python·django·sqlite
盼小辉丶1 小时前
图机器学习(17)——基于文档语料库构建知识图谱
人工智能·知识图谱·图机器学习
88号技师1 小时前
2025年7月Renewable Energy-冬虫夏草优化算法Caterpillar Fungus Optimizer-附Matlab免费代码
开发语言·人工智能·算法·matlab·优化算法
DO_Community1 小时前
DigitalOcean 一键模型部署,新增支持百度开源大模型ERNIE 4.5 21B
人工智能·深度学习·百度·自然语言处理·开源
飞哥数智坊2 小时前
GPT-5:让 OpenAI CEO 眩晕的“天啊”时刻
人工智能
荼蘼2 小时前
python爬虫实战-小案例:爬取苏宁易购的好评
开发语言·爬虫·python
运维小文2 小时前
初探贪心算法 -- 使用最少纸币组成指定金额
c++·python·算法·贪心算法