刚刚，Agent AI 时代来了：OpenAI正式发布ChatGPT智能体

零、前言

一、ChatGPT Agent发布

今日凌晨，备受瞩目的ChatGPT、Deep Research与Operator"三剑客"首次实现整合。

由萨姆·奥特曼亲自带队，通过一场25分钟的高能直播，正式发布了其核心产品------ChatGPT智能体（Agent），宣告了一个人类与智能体协作新纪元的到来。

想象一下，您的智能助手现在不仅能与您对话，更拥有了一双可以操作电脑的"虚拟的手"。它能够为您打开网页、启动程序、处理文档，自主地完成一系列复杂的电脑任务。

ChatGPT Agent 的核心是三大能力的深度融合：它不仅拥有ChatGPT的智能对话能力，还集成了Operator精准的网页交互功能与Deep Research强大的信息整合能力。这种融合使其从一个被动的问答工具，进化为一个能主动执行任务的"数字员工"。

例如，当你下达一个复合指令，如："请根据我的日历安排，为接下来的客户会议准备一份简报，并结合最新新闻"，Agent便能自主完成一系列动作：它会首先访问你的日历，确认会议与客户信息，然后自动搜索并分析与该客户相关的最新动态，最终将所有信息整合成一份高度针对性的会议简报。

二、核心功能更新

"这简直是游戏规则的改变者！" OpenAI 的核心成员 Mark Gadala-Maria 如此评价新发布的 ChatGPT Agent，他认为这会让强大的 AI 代理变得人人可用。他将其新获得的超能力总结为五个方面，让它不再只是一个"大脑"，更拥有了"双手"：

它能自己上网"阅读"和"研究"最新资料。
它能像IT专家一样操作电脑的"后台" (终端)。
它不仅是"程序员"，还是能亲自运行程序的"测试员"。
它能将枯燥的数据"画"成直观的地图。
它能像秘书一样自动整理材料并"撰写"专业报告。

三、核心技术：一场从"看懂"到"会做"的革命

ChatGPT Agent 的技术核心，是一场关于AI如何与数字世界互动的根本性变革。这场变革由两大支柱支撑：一个全新的模型和一个智能的工具箱。

1. 拥有"眼睛"和"双手"：CUA模型

其技术基石是一个名为"计算机使用代理"（Computer-Using Agent, CUA）的创新模型。您可以这样理解它：

教会AI"看"：CUA模型融合了GPT-4o强大的"视觉"能力，使其能像人一样通过原始像素数据"看懂"电脑屏幕上的按钮、菜单和文本。
教会AI"做"：通过强化学习，模型被专门训练来使用虚拟的鼠标和键盘进行操作，赋予了AI与图形界面（GUI）直接交互的能力。

简单来说，这标志着AI从一个只能通过代码和数据理解世界的"思考者"，进化成了一个能直接"看"屏幕并"动手"操作的"执行者"。

2. 智能协同的"瑞士军刀"

为了让"动手能力"发挥到极致，ChatGPT Agent还配备了一个功能全面的工具箱，并懂得如何为不同任务选择最高效的工具：

API接口：用于快速、直接地获取日历等结构化数据。
文本浏览器：高效处理大量文本信息。
视觉浏览器：应对复杂的网页交互，实现精准点击和操作。
终端 (Terminal)：运行Python代码，执行强大的数据分析和系统级任务。

这种多工具协同作战的能力，让它在处理复杂问题时总能找到最优路径。

3. 成果：创纪录的性能飞跃

这种"看"与"做"的结合带来了惊人的性能提升。在名为"人类的最后考试"的综合测试中，配备了浏览器和终端的ChatGPT Agent，准确率飙升至41.6% ，几乎是未配备工具的AI模型（23.0%）和强大的OpenAI o3模型（24.9%）的两倍。这生动地证明了"为AI配备工具"如同"为学生配备计算器"，是实现能力飞跃的关键。在专业领域，其表现更为惊人。在数据科学基准测试DSBench中，ChatGPT Agent在数据建模任务上取得了高达85.5%的准确率 ，这不仅远超其他AI模型（如AutoGen的45.5%），更是显著超越了人类专业人员65%的基准线。

其成功秘诀在于，它能像真正的数据科学家一样，打开终端、编写和调试代码、处理文件并生成图表------这是一种传统AI模型因缺乏"动手"能力而无法企及的、完整的、端到端的工作模式。

四、感觉就像有了一个"超能实习生"

ChatGPT Agent最酷的地方，在于它用起来的感觉变了。它不再是一个冷冰冰的程序，而更像一个聪明、能干、还特别听话的实习生。

1. 它能独立搞定一件事

你不用再一步步教AI该做什么。现在你可以直接说个大概想法，比如"帮我安排下周五的约会"，它就会自己去查你的日历、上网找评价好的餐厅、然后把预订选项发给你确认。它自己会想办法，你只需要做最终决定。

2. 你可以随时"指点江山"

这个"实习生"干活时，你可以随时"探头"过去看看进度。如果发现方向不对，可以立刻说"等等，换个思路"，或者"先停一下，告诉我你现在找到哪些信息了"。整个过程非常透明，你完全不用担心它会"闷头做错事"。

3. 它能同时处理好几件事

就像你可以同时交代给好几个实习生不同的任务，你也可以同时打开好几个对话框，让一个Agent去帮你买东西，另一个去帮你规划假期，互不干扰，效率翻倍。

五、它几乎什么都能干

有了这种能力，它的应用场景多到超乎想象，覆盖了你工作和生活中的各种"麻烦事"：

工作上：帮你做市场调研、写PPT、分析客户邮件、看财务报表。
生活上：帮你计划旅行、上网购物、自动申请停车位、写报告、做设计。
技术活：帮你分析数据、跑代码、做UX测试报告。

简而言之，它就是一个全能选手。目前，这个功能已经向Pro、Team和Plus用户开放。OpenAI首席产品官说得好："今年，ChatGPT将从一个'回答者'，变成一个'行动者'。"

六、感受

从"回答问题"到"解决问题"，ChatGPT Agent的发布不仅仅是一次产品更新，更像是一声发令枪，宣告了通用人工智能（AGI）的序幕正被缓缓拉开。

当AI拥有了"眼睛"和"双手"，能够像我们一样与数字世界交互时，它便从一个聪明的"知识库"蜕变为一个可靠的"执行者"。这不仅将颠覆我们现有的工作流，更将重新定义"生产力"的边界。一个由人类提出目标、AI自主执行的协作新范式，正以前所未有的速度向我们走来，未来已来，值得我们每个人去拥抱和想象。

AI平台国内直接访问地址：sass.xiaoxuzhu.cn/

包含了ChatGPT4o、o4-mini（支持Deep Research深入研究）、o4-mini-high、o3、GPT4.5、GPT4.1、Claude Sonnet 4、Gemini 2.5 Pro、Grok4、DeepSeek R1等模型。

输入指定的授权码即可。

我是虚竹哥，目标是带十万人玩转AI。