本周 AI 快讯 | 1 分钟速览
01 阿里「Qoder 1.0」发布,AI 编程升级为智能体自主开发工作台 :Quest 独立视窗取代 IDE 内聊天,Agent 可跨项目并行执行并自动生成交付清单;Qoder 家族已有 6 款产品,全球用户超 500 万。
02 月之暗面推出「Kimi WebBridge」,AI 携带登录态操作浏览器 :Chrome/Edge 扩展全程本地运行,登录会话不传服务器;兼容 Claude Code、Cursor、Codex 等多种 Agent,K2.6 可协调 300 个并行子代理执行 4000 步。
03 面壁智能开源「MiniCPM-V 4.6」端侧视觉模型,DeepSeek 专家模式限流 :1.3B 参数搭配 Qwen3.5-0.8B 骨干,视觉编码计算减少 50% 以上,4GB 显存即可部署;DeepSeek 同周关闭专家模式文件上传,官方提示资源紧张。
04 Anthropic 商业客户 34.4% 首超 OpenAI 的 32.3%,一周连发五项更新 :Ramp 覆盖 5 万多家美国企业的消费数据,Claude Code 贡献全球 4% 的 GitHub 公开提交;同周推出中小企业 Claude、Agent View、Claude Platform on AWS 正式 GA。
05 ChatGPT 开测「个人理财」,通过 Plaid 连接 12000 多家金融机构 :5 月 15 日预览版上线,限美国 Pro 用户(新增 100 美元/月档位);GPT-5.5 Thinking 驱动,内部金融评测得分 79/100,Pro 版 82.5 分。
06 Codex 移动端上线,手机可远程审批和发起 AI 编程任务 :5 月 15 日发布,所有计划含免费用户均可使用;Codex 周活已超 400 万,此前只能在桌面端操作,移动端补齐了最后一块短板。
07 OpenAI 发布「Daybreak」安全项目,把漏洞扫描前置到开发阶段 :5 月 12 日上线,面向企业客户;对标 Anthropic 的「Glasswing」方案,安全检查从上线前最后一关变成日常代码流程的一部分。
08 谷歌推出「Googlebook」笔记本,Gemini「Spark」智能体泄露 :Googlebook 首款为 Gemini 设计的笔记本,搭载「Magic Pointer」光标,联合五家 PC 厂商秋季上市;Spark 智能体可后台自主运行,I/O 2026 下周一开幕。
09 xAI「Grok Build」编程智能体发布,贴脸开大 Claude Code :基于 Grok 4.3 beta,2M token 上下文,16-agent 架构最多 8 并发;SuperGrok Heavy 299 美元/月(首 6 月 99 美元/月),支持 VS Code 集成。
10 马斯克庭审索赔 1300 亿美元,同周 OpenAI 准备起诉 Apple :5 月 12 日 Altman 作证近两小时,称马斯克曾要求持有 90% 股份;Bloomberg 报道 OpenAI 准备起诉 Apple,称 ChatGPT 与 Siri 的集成被「埋葬」,收入远低预期。
01|阿里「Qoder 1.0」发布,AI 编程升级为智能体自主开发工作台
5 月 15 日阿里正式发布 Qoder 1.0。最大变化是 Quest 从 IDE 内的聊天模式独立出来,成为一个完整的任务工作台。开发者只需定义目标,Agent 就能自主跑完执行、验证、交付的全流程,每步都有状态标签和可审查的产物链路。这个版本新增了跨项目并行能力,不同 Workspace 的 Agent 任务可以同时运行,完成后自动生成 Summary 交付清单。
Qoder 家族目前有 IDE、CLI、JetBrains 插件、移动端、QoderWork、QoderWake 六款产品,全球用户突破 500 万。1.0 还新增了自定义专家能力,开发者可以给 Agent 配置领域知识和外部工具接口,相当于每个团队都能组建自己的 Agent 团队。从 2025 年 8 月首发到现在不到一年,Qoder 已从辅助编码插件演化为阿里在 AI 编程赛道的全矩阵布局。
02|月之暗面推出「Kimi WebBridge」,AI 携带登录态操作浏览器
打开 Chrome 或 Edge 装一个扩展,再跑一条命令安装本地守护程序,你的 AI Agent 就能像真人一样操作浏览器了。「Kimi WebBridge」通过 Chrome DevTools Protocol 在本地完成所有操作,登录会话和页面内容不会传到月之暗面的服务器。它支持搜索、点击、滑动、输入、填表等完整交互,核心卖点是 Agent 能带着用户的 Cookie 和登录态去操作需要认证的页面。
月之暗面把 WebBridge 定义为「Agent 无关」平台,Kimi Code、Claude Code、Cursor、Codex 甚至 Hermes 都能接入。背后的 K2.6 模型可以协调多达 300 个并行子代理,在复杂多步骤任务中执行超过 4000 步。典型场景包括自动采集多个笔记应用的设计素材并对比风格差异,或者接管量化研究平台抓取金融数据完成策略回测。对于需要频繁操作多个网页的开发者和研究人员来说,这比手动切窗口省不少事。
03|面壁智能开源「MiniCPM-V 4.6」端侧视觉模型,DeepSeek 专家模式限流
面壁智能联合清华大学 5 月 11 日开源了 MiniCPM-V 4.6。1.3B 参数,视觉编码端用 SigLIP2-400M,语言骨干是 Qwen3.5-0.8B,通过 LLaVA-UHD v4 架构把图像编码计算量砍掉了一半以上。新引入的 4 倍/16 倍混合视觉 token 压缩让用户可以按任务需求在精度和速度之间切换,全精度模型 4GB 显存就能部署,GGUF 量化版在纯 CPU 上只需 2GB。
Thinking 变体在 MathVista 上拿到 75.6,MMMU 55.3,HallusionBench 57.2,整体性能超过同尺寸的 Ministral 3 3B 和 Qwen3.5-0.8B。端侧部署代码已支持 iOS、Android、HarmonyOS 三端并全部开源,开发者几步就能在手机上复现完整体验。另一边,DeepSeek 同周在专家模式关闭了文件上传功能,页面直接提示「资源紧张,暂不支持文件上传」。对于每天靠 DeepSeek 上传文档分析资料的用户来说,这是一个不小的功能缩水。
04|Anthropic 商业客户 34.4% 首超 OpenAI,「Claude Code」贡献 4% GitHub 提交
34.4% vs 32.3%。Ramp 5 月发布的 AI 指数覆盖美国 5 万多家企业的消费数据,显示 Anthropic 的企业付费采用率在 4 月首次超过 OpenAI。一年前这个数字还只有 9%,而 OpenAI 从 2025 年中 36.5% 的峰值一路下滑。Ramp 经济学家将增长归因于 Claude Code,这款编程 Agent 目前贡献了全球 4% 的 GitHub 公开提交,一个月内翻了一倍。
同一周 Anthropic 连续推出四项更新。面向中小企业的 Claude 服务打通了 QuickBooks、Canva、PayPal、HubSpot 和 DocuSign 五大工具,本地五金店和咖啡店可以直接用 AI 记账、生成营销素材、处理发票。Claude Code 上线了 Agent View 研究预览版,开发者在一个终端界面就能管理所有并行 AI 会话,不用再开六个 tmux 窗口来回切。Claude Platform 在 AWS 正式 GA,企业客户无需注册 Anthropic 账号就能通过 AWS 认证和计费体系使用完整功能集。据彭博社报道,Anthropic 还在推进新一轮融资,估值可能接近 9500 亿美元。
05|ChatGPT 开测「个人理财」,连接银行账户分析你的消费
ChatGPT 能帮你管钱了。5 月 15 日 OpenAI 向美国 Pro 用户推送了个人理财功能预览版,Pro 订阅同步新增 100 美元/月档位(此前仅有 200 美元/月),通过金融数据服务商 Plaid 接入超过 12000 家银行和券商,包括 Chase、Schwab、Fidelity、Robinhood 和 American Express。连接账户后 ChatGPT 会自动同步并分类消费数据,生成一个涵盖投资组合表现、订阅支出、待付账单的个人财务面板。
底层用的是 GPT-5.5 Thinking,OpenAI 联合 50 多名金融专家评测,在内部金融基准上得分 79/100,GPT-5.5 Pro 达到 82.5 分。用户可以让它分析 12 个月的消费波动、找出可以砍掉的订阅、识别投资组合里的风险标的。这个功能源自 OpenAI 上个月收购的个人理财创业公司 Hiro 团队。隐私方面,ChatGPT 可以读取余额和交易记录,但看不到完整账号,也无法操作账户。目前仅限 Pro 用户,后续会逐步开放给 Plus 和免费用户。
06|Codex 移动端上线,手机可远程审批和发起 AI 编程任务
出门在外也能盯着 AI 写代码了。5 月 15 日 OpenAI 宣布 Codex 移动端正式上线,用户在手机 ChatGPT 上就能远程控制桌面端的 Codex,审批任务、查看进展、发起新指令都能在手机上完成。Codex 目前周活已超 400 万,此前只能在桌面端操作,移动端补齐了最后一块短板。这个功能面向所有计划开放,包括免费用户。
对于重度 Codex 用户来说,最实用的场景是异步工作。白天在桌面端给 Codex 下发一批代码任务,通勤路上用手机审批完成的结果,晚上回到电脑前直接推代码。过去这个流程必须全程守在电脑前,或者用远程桌面曲线救国。移动端的加入让 Codex 从一个只能坐在工位上用的工具变成了随时可以介入的后台助手。
07|OpenAI 发布「Daybreak」安全项目,把漏洞扫描前置到开发阶段
5 月 12 日 OpenAI 面向企业客户推出了「Daybreak」安全项目。核心思路是把安全扫描从上线前的最后一关前移到每次代码提交,让漏洞检测成为日常开发流程的一部分而不是事后补救。这个方向直接对标 Anthropic 此前发布的「Glasswing」方案,两家在安全赛道也开始正面竞争。
对于同时使用 Codex 和 Daybreak 的团队来说,AI 写完代码就能自动过一遍安全检查,省掉手动排查的环节。安全工具从来不是 AI 公司的核心卖点,但 Anthropic 靠「Glasswing」拿下了一批安全意识强的企业客户,OpenAI 不得不跟进。这也是本周 AI 编程赛道的一个侧面信号:当编码本身已经被 Agent 接管,代码安全就成了下一个需要自动化的环节。
08|谷歌推出「Googlebook」笔记本,Gemini「Spark」智能体泄露
5 月 12 日谷歌在 Android Show 大会上推出了全新笔记本品牌「Googlebook」,号称第一款从底层为 Gemini 设计的笔记本电脑。核心卖点是「Magic Pointer」智能光标,可以根据屏幕内容提供上下文 AI 建议。合作厂商包括 Acer、华硕、戴尔、惠普和联想五家,预计今年秋季上市。同场发布的 Gemini Intelligence 把 AI 能力嵌入 Android 底层,支持跨应用自动执行多步骤任务,谷歌的说法是「从操作系统到智能系统」。
大会两天后,Google app beta 版本 17.23 泄露了一个名叫「Spark」的 Gemini 智能体。从截图看,Spark 可以在后台自主运行,清理 Gmail 垃圾邮件、整理会议笔记、生成个性化新闻摘要。最值得关注的是「Skills」功能,用户可以设定循环任务,比如让 Spark 每周自动从 Drive 和 Docs 中提取数据生成周报。泄露界面中的隐私警告提到 Spark 可能在未经确认的情况下向第三方分享信息甚至自动下单,谷歌显然还在权衡自动化与安全之间的边界。I/O 2026 下周一(5 月 19 日)开幕,Spark 很可能是主角之一。
09|xAI「Grok Build」编程智能体发布,贴脸开大 Claude Code
Claude Code 和 Codex 在编程 Agent 赛道杀得正欢,xAI 5 月 14 日带着「Grok Build」跳了进来。这是一款基于 Grok 4.3 beta 的 CLI 编程工具,上下文窗口 2M token,采用 16-agent 架构,最多可以同时派出 8 个并发 Agent。内置规划模式允许用户在执行前审核计划,Arena Mode 让多个模型同时生成方案进行对比,VS Code 集成和 MCP 服务接入也在首发功能之列。
入场价不低。「Grok Build」仅面向 SuperGrok Heavy 订阅用户开放,正式定价 299 美元/月,前 6 个月优惠价 99 美元/月,在编程 Agent 赛道属于最贵一档。代码全部在本地运行不上传服务器,还能读取 AGENTS.md 文件来定义项目上下文。对于已经在 xAI 生态里的重度用户来说,这是一个不用切换平台的选项,但 99 美元的优惠期只有半年,之后的 299 月费会让不少人重新算账。
10|马斯克庭审索赔 1300 亿美元,同周 OpenAI 准备起诉 Apple
Sam Altman 5 月 12 日走上加州奥克兰联邦法庭的证人席,面对 Elon Musk 的律师团队近两小时的质询。马斯克方面索赔约 1300 亿美元,要求 OpenAI 恢复非营利架构并移除 Altman 和 Brockman。Altman 在作证时透露,马斯克早期曾要求持有 OpenAI 90% 的股份,遭到董事会拒绝后逐渐与公司疏远。微软作为共同被告被列入诉讼,CEO Nadella 预计将出庭约一小时。
法庭这边还没消停,彭博社 5 月 14 日报道 OpenAI 正准备对 Apple 发起诉讼。起因是 ChatGPT 与 Siri 的集成效果远低预期,OpenAI 认为 Apple 有意「埋葬」了 ChatGPT 的入口,导致用户量和收入大幅落后于预期。与此同时 Apple 也不满意,正在为 iOS 27 测试 Claude 和 Gemini 作为替代方案。一边是老股东闹上法庭,一边是合作伙伴翻脸,OpenAI 的法务部门这周不太清闲。