谷歌掀桌子:Gemini Deep Research 让深度思考进入白菜价时代

你有没有这种感觉:现在的 AI 聊天机器人,像极了一个急于表现的抢答选手。你刚把问题抛出去,还没等气口喘匀,它就急吼吼地扔回来一段看似通顺实则经不起推敲的答案。

这就是传统 RAG(检索增强生成)的通病------线性的、一次性的、浅尝辄止的。

但谷歌刚刚发布的 Gemini Deep Research Agent,似乎打算终结这个"抢答时代"。这不仅仅是一个新模型,更像是谷歌在 AI 工业化进程中投下的一枚深水炸弹。基于 Gemini 3 Pro 构建,这个智能体不只是在回答问题,它在真正地"做研究"。

更重要的是,谷歌这次直接把矛头对准了成本。

慢思考的胜利:像人类一样做调研

如果不谈技术名词,Gemini Deep Research 最大的突破在于它模拟了人类研究员的工作流。

想象一下你让实习生去调研"2025年合成生物学在护肤品领域的应用趋势"。如果这名实习生只是去百度搜一下然后把前三条结果复制给你,你肯定会发火。你期望的是:他先拆解问题,制定搜索计划,阅读十几篇长篇报告,发现数据冲突时再去验证,最后整理出一份带引用的分析报告。

Gemini Deep Research 做的就是这件事。

它引入了"迭代式研究规划"。收到指令后,它不会立刻作答,而是先规划子任务。它会进行多轮、多跳的深度搜索,阅读长篇 PDF,甚至在发现知识缺口时自我纠正。

这种"慢思考"带来的质量提升是肉眼可见的。在专门衡量深度研究能力的 DeepSearchQA 基准测试中,它拿下了 66.1% 的高分。而在那个著名的、旨在难倒 AI 的"Humanity's Last Exam (HLE)"测试集中,它达到了 46.4%。作为对比,业界公认的强手 GPT-5 Pro 在同类测试中的表现约为 38.9%。

不仅仅是强,而是便宜得吓人

性能强悍固然重要,但真正让开发者和企业主眼红的,是谷歌抛出的成本论断。

深度推理通常意味着昂贵的 Token 消耗。此前的 o1 或 GPT-5 级别模型,每一次"深度思考"都在燃烧预算。但根据谷歌产品经理的透露,Gemini Deep Research 在提供与 GPT-5 Pro 相当甚至更优的报告质量时,成本仅为后者的十分之一左右。

虽然目前市场上还没有公开的第三方账单对比来实锤这个"1/10",但如果谷歌真能做到将高算力任务的成本压缩一个数量级,这就意味着过去只敢用在金融尽调、药物研发等高价值场景的"AI 深度研究",现在可以下放到普通的内容创作、市场分析甚至个人助理场景中。

这是从"奢侈品"到"日用品"的跨越。

开发者的福音:Interactions API

对于在座的程序员朋友来说,这次发布还有一个更实际的利好:Interactions API。

以前要构建一个能跑十几分钟、中间不断调用搜索工具的 Agent,你需要自己在客户端维护一堆复杂的状态,处理各种断连和上下文丢失的噩梦。

现在,谷歌把这些脏活累活揽到了服务器端。通过新的 API,支持异步后台执行。你把任务扔给它,就可以断开连接去喝咖啡,等它跑完那复杂的 5 到 15 分钟思考过程,再回来取结果。甚至,你还可以通过流式传输看到它的"内心独白"------看着它如何规划、如何纠结、如何修正路线,这本身就是一种极好的调试体验。

写在最后

Gemini Deep Research 的出现,标志着 AI 应用正在从"对话框"走向"工作台"。

它不再是一个陪你聊天的伙伴,而是一个能够独立承担长周期任务的初级员工。虽然它依然会有延迟,依然需要人类专家进行最后的把关(Human-in-the-loop),但它已经能够交出一份完成度 80% 且带有详实引用的研究草稿。

在这个时间节点,谷歌用开源基准测试 DeepSearchQA 和激进的定价策略,向 OpenAI 发起了一次漂亮的侧翼包抄。对于我们使用者而言,神仙打架,凡人受益,深度思考白菜价的时代,可能真的来了。

如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站

相关推荐
92year31 分钟前
用 PydanticAI 写一个类型安全的 AI Agent——依赖注入、工具注册到流式输出全过程
aigc
刘贺同学4 小时前
用Hermes一周,它自动生成了4个直接运行的Skill
aigc·ai编程
卷积殉铁子4 小时前
OpenClaw不装了,GPT-6硬刚:谁能拿下未来5年AI红利?
人工智能·aigc·openai
秒云5 小时前
MIAOYUN | 每周AI新鲜事儿 260430
人工智能·ai·语言模型·aigc·ai编程
PM老周5 小时前
AI时代项目管理工具体验测评:功能效率协作与研发团队选型
ai·aigc·团队开发·ai编程
刘贺同学5 小时前
拆解 AutoResearch:630 行代码,一晚上百次实验
aigc·ai编程
明天有专业课6 小时前
RAG-不写SQL也能查询MySQL数据
面试·aigc
DisonTangor7 小时前
【阿里拥抱开源】Ling-2.6-flash: 更快响应,更强执行,更高令牌效率
人工智能·开源·aigc
老赵聊算法、大模型备案7 小时前
“清朗·整治AI应用乱象”专项行动深度解读:从资质合规视角看AI应用新规
大数据·人工智能·算法·安全·aigc
Hommy8816 小时前
【开源剪映小助手】API 接口文档
开源·github·aigc·视频剪辑自动化·剪映api