
零、前言

一、ChatGPT Agent发布
今日凌晨,备受瞩目的ChatGPT、Deep Research与Operator"三剑客"首次实现整合。
由萨姆·奥特曼亲自带队,通过一场25分钟的高能直播,正式发布了其核心产品------ChatGPT智能体(Agent),宣告了一个人类与智能体协作新纪元的到来。

想象一下,您的智能助手现在不仅能与您对话,更拥有了一双可以操作电脑的"虚拟的手"。它能够为您打开网页、启动程序、处理文档,自主地完成一系列复杂的电脑任务。
ChatGPT Agent 的核心是三大能力的深度融合:它不仅拥有ChatGPT的智能对话能力,还集成了Operator精准的网页交互功能与Deep Research强大的信息整合能力。这种融合使其从一个被动的问答工具,进化为一个能主动执行任务的"数字员工"。
例如,当你下达一个复合指令,如:"请根据我的日历安排,为接下来的客户会议准备一份简报,并结合最新新闻",Agent便能自主完成一系列动作:它会首先访问你的日历,确认会议与客户信息,然后自动搜索并分析与该客户相关的最新动态,最终将所有信息整合成一份高度针对性的会议简报。

二、核心功能更新
"这简直是游戏规则的改变者!" OpenAI 的核心成员 Mark Gadala-Maria 如此评价新发布的 ChatGPT Agent,他认为这会让强大的 AI 代理变得人人可用。他将其新获得的超能力总结为五个方面,让它不再只是一个"大脑",更拥有了"双手":
- 它能自己上网"阅读"和"研究"最新资料。
- 它能像IT专家一样操作电脑的"后台" (终端)。
- 它不仅是"程序员",还是能亲自运行程序的"测试员"。
- 它能将枯燥的数据"画"成直观的地图。
- 它能像秘书一样自动整理材料并"撰写"专业报告。
三、核心技术:一场从"看懂"到"会做"的革命
ChatGPT Agent 的技术核心,是一场关于AI如何与数字世界互动的根本性变革。这场变革由两大支柱支撑:一个全新的模型和一个智能的工具箱。
1. 拥有"眼睛"和"双手":CUA模型
其技术基石是一个名为"计算机使用代理"(Computer-Using Agent, CUA)的创新模型。您可以这样理解它:
- 教会AI"看":CUA模型融合了GPT-4o强大的"视觉"能力,使其能像人一样通过原始像素数据"看懂"电脑屏幕上的按钮、菜单和文本。
- 教会AI"做":通过强化学习,模型被专门训练来使用虚拟的鼠标和键盘进行操作,赋予了AI与图形界面(GUI)直接交互的能力。
简单来说,这标志着AI从一个只能通过代码和数据理解世界的"思考者",进化成了一个能直接"看"屏幕并"动手"操作的"执行者"。
2. 智能协同的"瑞士军刀"
为了让"动手能力"发挥到极致,ChatGPT Agent还配备了一个功能全面的工具箱,并懂得如何为不同任务选择最高效的工具:
- API接口:用于快速、直接地获取日历等结构化数据。
- 文本浏览器:高效处理大量文本信息。
- 视觉浏览器:应对复杂的网页交互,实现精准点击和操作。
- 终端 (Terminal):运行Python代码,执行强大的数据分析和系统级任务。
这种多工具协同作战的能力,让它在处理复杂问题时总能找到最优路径。
3. 成果:创纪录的性能飞跃
这种"看"与"做"的结合带来了惊人的性能提升。在名为"人类的最后考试"的综合测试中,配备了浏览器和终端的ChatGPT Agent,准确率飙升至41.6% ,几乎是未配备工具的AI模型(23.0%)和强大的OpenAI o3模型(24.9%)的两倍。这生动地证明了"为AI配备工具"如同"为学生配备计算器",是实现能力飞跃的关键。 在专业领域,其表现更为惊人。在数据科学基准测试DSBench中,ChatGPT Agent在数据建模任务上取得了高达85.5%的准确率 ,这不仅远超其他AI模型(如AutoGen的45.5%),更是显著超越了人类专业人员65%的基准线。
其成功秘诀在于,它能像真正的数据科学家一样,打开终端、编写和调试代码、处理文件并生成图表------这是一种传统AI模型因缺乏"动手"能力而无法企及的、完整的、端到端的工作模式。
四、感觉就像有了一个"超能实习生"
ChatGPT Agent最酷的地方,在于它用起来的感觉变了。它不再是一个冷冰冰的程序,而更像一个聪明、能干、还特别听话的实习生。
1. 它能独立搞定一件事
你不用再一步步教AI该做什么。现在你可以直接说个大概想法,比如"帮我安排下周五的约会",它就会自己去查你的日历、上网找评价好的餐厅、然后把预订选项发给你确认。它自己会想办法,你只需要做最终决定。
2. 你可以随时"指点江山"
这个"实习生"干活时,你可以随时"探头"过去看看进度。如果发现方向不对,可以立刻说"等等,换个思路",或者"先停一下,告诉我你现在找到哪些信息了"。整个过程非常透明,你完全不用担心它会"闷头做错事"。
3. 它能同时处理好几件事
就像你可以同时交代给好几个实习生不同的任务,你也可以同时打开好几个对话框,让一个Agent去帮你买东西,另一个去帮你规划假期,互不干扰,效率翻倍。
五、它几乎什么都能干
有了这种能力,它的应用场景多到超乎想象,覆盖了你工作和生活中的各种"麻烦事":
- 工作上:帮你做市场调研、写PPT、分析客户邮件、看财务报表。
- 生活上:帮你计划旅行、上网购物、自动申请停车位、写报告、做设计。
- 技术活:帮你分析数据、跑代码、做UX测试报告。
简而言之,它就是一个全能选手。目前,这个功能已经向Pro、Team和Plus用户开放。OpenAI首席产品官说得好:"今年,ChatGPT将从一个'回答者',变成一个'行动者'。"
六、感受
从"回答问题"到"解决问题",ChatGPT Agent的发布不仅仅是一次产品更新,更像是一声发令枪,宣告了通用人工智能(AGI)的序幕正被缓缓拉开。
当AI拥有了"眼睛"和"双手",能够像我们一样与数字世界交互时,它便从一个聪明的"知识库"蜕变为一个可靠的"执行者"。这不仅将颠覆我们现有的工作流,更将重新定义"生产力"的边界。一个由人类提出目标、AI自主执行的协作新范式,正以前所未有的速度向我们走来,未来已来,值得我们每个人去拥抱和想象。
AI平台 国内直接访问地址:sass.xiaoxuzhu.cn/
包含了ChatGPT4o、o4-mini(支持Deep Research深入研究)、o4-mini-high、o3、GPT4.5、GPT4.1、Claude Sonnet 4、Gemini 2.5 Pro、Grok4、DeepSeek R1等模型。
输入指定的授权码即可。
我是虚竹哥,目标是带十万人玩转AI。