注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书 《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】
文章目录
- [GPT多模态大模型与AI Agent智能体系列三十四](#GPT多模态大模型与AI Agent智能体系列三十四)
-
- [OpenAI发布ChatGPT Agent,AI智能体迎来关键变革](#OpenAI发布ChatGPT Agent,AI智能体迎来关键变革)
- [一、ChatGPT Agent功能展示](#一、ChatGPT Agent功能展示)
- [二、ChatGPT Agent基准测试表现](#二、ChatGPT Agent基准测试表现)
-
- (一)人类最后考试(HLE)
- (二)FrontierMath基准测试
- (三)WebArena基准测试
- (四)BrowserComp基准测试
- [(五)Spreadsheet Bench基准测试](#(五)Spreadsheet Bench基准测试)
- [(六)Internal Banking Benchmark基准测试](#(六)Internal Banking Benchmark基准测试)
- [三、ChatGPT Agent安全风险及防范](#三、ChatGPT Agent安全风险及防范)
- [四、ChatGPT Agent上线计划](#四、ChatGPT Agent上线计划)
- 总结
GPT多模态大模型与AI Agent智能体系列三十四
OpenAI发布ChatGPT Agent,AI智能体迎来关键变革
2025年7月18日凌晨1点,OpenAI通过直播发布了最新模型ChatGPT Agent,将DeepResearch和Operator功能融合,打造出可深度研究和浏览使用的AI智能体,标志着AI从单纯的语言交互迈向能执行复杂任务的新阶段。
一、ChatGPT Agent功能展示
(一)日常生活任务处理
以参加朋友婚礼准备为例,研究员向ChatGPT Agent输入详细需求,包括婚礼网站、预订酒店网站,并要求其寻找符合场合着装要求的男士服装(推荐五个方案,包含中等奢华物品且与场地和天气相符)、在booking.com预订提前几天可入住的酒店并查看空房及价格、挑选500美元以下礼物,最后生成报告。收到提示词后,ChatGPT Agent首先设置环境,通常需一两分钟,快时不到5秒(实际演示7秒)。准备好后会向用户确认理解是否准确,得到"continue"指令后开始工作。执行任务时,用户能同步看到其操作计算机屏幕过程及思维链。最终,它根据婚礼信息确定西装推荐及购买渠道、提供房源信息,还给出礼物建议,并附上浏览结果截图。任务完成后,用户可通过视频回顾执行过程。
(二)互联网浏览交互
ChatGPT Agent可使用文本浏览器和可视化浏览器浏览互联网。文本浏览器类似DeepResearch,能高效快速阅读和搜索大量网页;可视化浏览器类似Operator,可与网页UI交互,执行拖动网页、点击光标、打开UI组件、填写表单、输入文本等操作,两种浏览器互补性强。此前,Operator在阅读超长文章时因需滚动而耗时,DeepResearch在与网页交互元素、视觉效果交互方面较弱,而ChatGPT Agent整合二者优势。且用户反馈期待DeepResearch能登录网站访问经过身份验证的来源,这一点Operator可以实现,同时很多Operator提示与DeepResearch提示相似,也促使了二者融合。
(三)办公文档处理与API调用
ChatGPT Agent拥有自己的终端运行代码,可生成和分析PPT、Excel等文件,还能通过终端调用API,包括公共API和访问用户私有数据源的API(如Google Drive、Google Calendar、Github Sharepoint等),甚至调用图像生成API为PPT生成图像。演示中,研究员让ChatGPT Agent从Google Drive提取评估编号并制作幻灯片,模型连接Google Drive API,搜索相关结果,读取内容后编写代码,利用图像生成模型为PPT配图,最终生成可下载并在本地打开的PPT文档。
二、ChatGPT Agent基准测试表现
(一)人类最后考试(HLE)
在该面向人类知识前沿的多模态基准测试中,拥有完全工具使用能力的ChatGPT Agent通过率达42%,性能相比仅有browser use和python代码能力的DeepSesearch、o3几乎翻了一番,而没有工具使用能力的ChatGPT Agent和o3则垫底。这表明ChatGPT Agent在综合知识运用和复杂任务处理上优势明显,其工具使用能力极大提升了应对多模态任务的水平。
(二)FrontierMath基准测试
该测试衡量高级数学推理能力,ChatGPT Agent通过率达27%,超越了拥有Python编码能力的o4 - mini和o3 ,显示出其在数学推理领域较强的实力,能够处理复杂的数学问题并给出准确解答。
(三)WebArena基准测试
ChatGPT Agent表现接近人类且高于o3和4o ,说明在模拟真实网络环境下的任务执行中,ChatGPT Agent能够较好地理解和完成任务,与人类表现差距不断缩小,在实际网络应用场景中具有较高的可用性。
(四)BrowserComp基准测试
该测试衡量Agent搜索和查找信息的能力,ChatGPT Agent显著优于o3和DeepResearch模型,证明其在信息检索和处理方面的高效性,能够快速准确地从互联网海量信息中找到所需内容并进行有效利用。
(五)Spreadsheet Bench基准测试
该测试衡量创建和编辑电子表格的能力,使用LibreOffice和其它工具的ChatGPT Agent可完成30%的任务,当赋予其访问终端中原始Excel文件权限时,性能提升至45% ,体现出其在电子表格处理方面的不断优化和强大潜力,随着权限和工具的完善,能够更好地满足用户在该领域的复杂需求。
(六)Internal Banking Benchmark基准测试
该测试评估模型执行1到3年经验投资银行分析师任务的能力,如为财富500强公司构建三表财务模型,ChatGPT Agent表现显著优于DeepResearch和o3 ,表明其在专业金融领域的任务处理上具备较强优势,能够胜任复杂的金融分析和建模工作。
三、ChatGPT Agent安全风险及防范
OpenAI官方强调,让AI Agent执行网页浏览存在风险。互联网存在各种网络攻击、诈骗和网络钓鱼,试图窃取信息,Agent模型也无法完全避免。例如"prompt injection"攻击,若用户让智能体买书并输入信用卡信息,智能体可能进入恶意网站并按其要求输入信息。为防范风险,OpenAI采取多种措施:训练模型忽略可疑网站上的可疑指令;设置多层监视器监视Agent运行,且可实时更新信息防范新攻击。但OpenAI也指出,不可能阻止所有风险,用户自身需意识到风险,尽量不分享高度敏感信息,合理使用接管模式。
四、ChatGPT Agent上线计划
ChatGPT Agent将为Pro、Plus和Team用户上线。Pro用户每月获400次查询,Plus和Team用户每月获40次查询。Pro版部署预计本月底完成,Plus版随后完成,Team版争取本月底前上线企业版和教育版。OpenAI团队表示,虽然目前处于初期阶段,但会迅速改进,期待看到其后续发展。
更多技术内容
更多技术内容可参见
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】书籍。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
清华《GPT多模态大模型与AI Agent智能体》书籍本章配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
揭秘 DeepSeek、Sora、GPT-4 等多模态大模型的技术底层逻辑,详解 Transformer 架构如何突破传统神经网络局限,实现长距离依赖捕捉与跨模态信息融合。
对比编码预训练(BERT)、解码预训练(GPT 系列)及编解码架构(BART、T5)的技术差异,掌握大模型从 "理解" 到 "生成" 的核心逻辑。
实战驱动,掌握大模型开发全流程
提示学习与指令微调:通过 Zero-shot、Few-shot 等案例,演示如何用提示词激活大模型潜能,结合 LoRA 轻量化微调技术,实现广告生成、文本摘要等场景落地(附 ChatGLM3-6B 微调实战代码)。
人类反馈强化学习(RLHF):拆解 PPO 算法原理,通过智谱 AI 等案例,掌握如何用人类偏好优化模型输出,提升对话系统的安全性与实用性。
智能涌现与 AGI 前瞻,抢占技术高地
解析大模型 "智能涌现" 现象(如上下文学习、思维链推理),理解为何参数规模突破阈值后,模型能实现从 "量变" 到 "质变" 的能力跃升。
前瞻通用人工智能(AGI)发展趋势,探讨多模态模型(如 Sora)如何推动 AI 从 "单一任务" 向 "类人智能" 进化,提前布局未来技术赛道。
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄