本周 AI 快讯 | 1 分钟速览
01 DeepSeek V4 预览版开源,1.6 万亿参数携手华为昇腾 :V4-Pro 限时 2.5 折,输入命中 0.25 元、输出 6 元/百万 tokens;FP4 精度对接昇腾 950PR,1M 上下文成所有官方服务标配。
02 腾讯混元 Hy3 preview 开源,姚顺雨入职后首张答卷 :2950 亿总参 / 210 亿激活 MoE,256K 上下文;从启动训练到上线不到三个月,已在 QQ、元宝、CodeBuddy、腾讯文档等首批落地。
03 阿里 Qwen3.6 同周双发,27B 稠密超越 15 倍参数 MoE 旗舰 :Qwen3.6-Max-Preview 4 月 20 日上线 Qwen Studio;4 月 22 日开源的 Qwen3.6-27B 拿下 SWE-bench Verified 77.2、Terminal-Bench 2.0 59.3,逐项超过前代 3970 亿 MoE。
04 小米 MiMo-V2.5 公测,Pro 版 4.3 小时手搓 SysY 编译器拿满分 :北大《编译原理》本科生通常需数周,MiMo-V2.5-Pro 用 672 次工具调用拿下 233/233;首次冷启动通过率 59%,对标 Claude Opus 4.6、GPT-5.4。
05 月之暗面开源 Kimi K2.6,13 小时连编 4000 行代码;上线异常全员额度重置 :SWE-Bench Pro 58.6 领先所有对比,Terminal-Bench 2.0 66.7 超 GPT-5.4 和 Opus 4.6;Agent 集群升至 300 子 Agent / 4000 步,纯推理 HLE-Full 仅 34.7。
06 Anthropic 二级市场估值冲上 1 万亿,谷歌随即拍板最高 400 亿加码 :Forge Global 估值反超 OpenAI 的 8800 亿;谷歌先投 100 亿美元(按 3500 亿估值)、达标再追加 300 亿、五年提供约 5 GW 算力;亚马逊同周也宣布最高再加 200 亿。
07 OpenAI GPT-5.5 反扑 Claude,编程王座抢回,Token 成本降至 1/35 :Terminal-Bench 2.0 82.7 比 Claude Opus 4.7 高 13.3 个百分点;OSWorld-Verified 78.7 超人类基线;API 比 GPT-5.4 翻倍至每百万输入 5 美元、输出 30 美元。
08 OpenAI 同周双发:ChatGPT Images 2.0 接联网思考,Workspace Agents 顶替 custom GPTs :gpt-image-2 一次最多生成 8 张连贯图像,Image Arena 三榜第一;DALL-E 2、DALL-E 3 将于 5 月 12 日退役;Workspace Agents 由 Codex 驱动,可接入 Slack、Salesforce、Google Drive 等。
09 谷歌 Gemini 3.1 Pro Deep Research / Max 上线,原生 MCP 接专有数据源 :DeepSearchQA 93.3 比 12 月预览版的 66.1 大幅提升,Humanity's Last Exam 拿到 54.6;仅 API 付费层可用,Gemini 消费应用 Pro 订阅者用不上。
10 SpaceX 600 亿期权抢下 Cursor,微软曾考虑收购但放弃 :要么年内 600 亿美元买下、要么支付 100 亿合作费;同期 Cursor 正以 500 亿估值募 20 亿美元;CNBC 爆料微软评估后没出手,GitHub Copilot 付费用户已达 470 万、同比涨 75%。
01|DeepSeek 开源「V4 预览版」,1.6 万亿参数对接华为昇腾,Pro 版限时 2.5 折
4 月 24 日 DeepSeek 在 Hugging Face 同步开源 V4-Pro 和 V4-Flash 两款 MoE 模型预览版,同时开源了新一代注意力机制 DSA(DeepSeek Sparse Attention)。V4-Pro 总参 1.6 万亿、激活 490 亿,刷新了国产开源最大参数纪录,超过此前的 Kimi K2.6(总参 1 万亿);V4-Flash 总参 2840 亿、激活 130 亿,定位经济档。两款模型都原生支持 1M 上下文,1M 也成为 DeepSeek 所有官方服务的标配。在 1M 设置下,V4-Pro 单 token 推理 FLOPs 只有 V3.2 的 27%、KV Cache 10%;V4-Flash 进一步降到 10% 和 7%。
API 定价方面,V4-Flash 输入命中 0.2 元、未命中 1 元、输出 2 元;V4-Pro 限时 2.5 折后输入命中 0.25 元、未命中 3 元、输出 6 元,原价是 1 元、12 元、24 元(均按每百万 tokens)。技术报告第 3.1 节首次把华为昇腾和英伟达并列写进硬件验证清单,MoE 专家权重和稀疏注意力索引器都采用 FP4 精度,正好对应华为 3 月发布的昇腾 950PR 原生支持的 mxFP4。DeepSeek 在发布文章里写道,「预计下半年昇腾 950 超节点批量上市并部署之后,Pro 版本的价格也会大幅度下调」。官方对 V4 的自评是仍落后 GPT-5.4 和 Gemini 3.1 Pro 约 3 到 6 个月,所以这版定位为 preview,正式版预计 6 月推出。同时 DeepSeek 启动了成立以来首次外部融资,目标估值至少 100 亿美元、募资不少于 30 亿美元。
02|腾讯混元发布并开源「Hy3 preview」,姚顺雨带队三个月交出第一份答卷
腾讯混元 4 月 23 日正式发布并开源 Hy3 preview,总参 2950 亿、激活 210 亿的 MoE 架构,最大支持 256K 上下文,快慢思考融合。这是 2025 年底加盟腾讯的首席 AI 科学家姚顺雨主导的第一代模型,从 2026 年 1 月底启动训练到上线,用了不到三个月。混元团队 2 月在姚顺雨带领下重建了预训练和强化学习基础设施,确立了三条原则:能力体系化、评测真实性、性价比追求。Hy3 preview 在代码智能体基准 SWE-Bench Verified、Terminal-Bench 2.0 和搜索智能体基准 BrowseComp、WideSearch 上都跑了测评,也参加了清华求真书院数学博资考、全国中学生生物学联赛 CHSBO 2025 这类真实考试,但腾讯没在博客里给出具体跑分数据。
在腾讯云大模型服务平台 TokenHub 上,Hy3 preview 输入价格最低 1.2 元、命中缓存 0.4 元、输出最低 4 元(每百万 tokens),个人版套餐最低 28 元一个月。腾讯解释这个价格是模型和推理框架深度协同的结果,整体推理效率比上一代提升 40%。模型已在腾讯云、元宝、CodeBuddy、WorkBuddy、QQ、ima、QQ 浏览器、腾讯文档、腾讯乐享首批上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书也在陆续上线,同时支持接入 OpenClaw、OpenCode、KiloCode 等开源 Agent。姚顺雨在博客中说,「Hy3 preview 是混元大模型重建的第一步」,希望从开源社区拿到真实反馈来改进正式版。
03|阿里 Qwen3.6 同周双发,开源 27B 稠密版打穿前代 397B MoE 旗舰
4 月 20 日 Qwen3.6-Max-Preview 上线 Qwen Studio,相比 Qwen3.6-Plus,世界知识 SuperGPQA +2.3、智能体编程 SkillsBench +9.9、SciCode +10.8、NL2Repo +5.0、Terminal-Bench 2.0 +3.8、指令遵循 ToolcallFormatIFBench +2.8。两天后的 4 月 22 日,阿里以 Apache 2.0 协议开源了 Qwen3.6-27B,社区呼声最高的稠密多模态档位,原生支持视觉语言的思考与非思考双模式。
Qwen3.6-27B 仅凭 270 亿参数就在主流编程基准上逐项超过前代旗舰 Qwen3.5-397B-A17B,后者总参 3970 亿、激活 170 亿,体量是稠密版的 15 倍左右。27B 拿到 SWE-bench Verified 77.2(前代 76.2)、SWE-bench Pro 53.5(前代 50.9)、Terminal-Bench 2.0 59.3(前代 52.5)、SkillsBench 48.2(前代 30.0)。稠密架构无需 MoE 路由即可部署,对算力有限的团队比 MoE 更友好。权重已在 Hugging Face 和 ModelScope 上线,阿里云百炼即将开放 API 调用,并支持 preserve_thinking 选项,能在多轮对话里保留前序思考过程。模型也可以接入 OpenClaw、Claude Code、Qwen Code 等编程助手。
04|小米「MiMo-V2.5」公测,Pro 版 4.3 小时手搓 SysY 编译器拿下 233/233
原 DeepSeek 核心成员罗福莉带队的小米 MiMo 团队 4 月 23 日深夜开放了 V2.5 系列公测,旗舰推理版 MiMo-V2.5、全模态 Agent 版 MiMo-V2.5-Pro 都已上线,权重即将开源;语音的 V2.5-TTS Series 和 V2.5-ASR 也即将推出。距上次 V2 系列三连更只隔 36 天。最受关注的是一个北大《编译原理》课程项目,要求用 Rust 从零写一个 SysY 编译器,含词法、语法、AST、Koopa IR 代码生成、RISC-V 汇编后端、性能优化六层。北大本科生完成这个项目通常需要几周,MiMo-V2.5-Pro 用 4.3 小时、672 次工具调用跑完,隐藏测试集 233/233 满分。
模型先把整条流水线骨架搭出来,再逐层攻克。Koopa IR 满分(110/110)、RISC-V 后端满分(103/103)、性能优化满分(20/20),首次编译就有 137/233 通过,冷启动通过率 59%。第 512 轮一次重构让 lv9/riscv 回退两个测试点,模型自行诊断、恢复、继续推进。视频编辑器 Web 应用是官方放的第二个案例,8192 行代码、1868 次工具调用、11.5 小时自主完成,包含多轨道时间线、片段裁剪、交叉淡化、音频混合和导出。基础版 MiMo-V2.5 原生支持 1M 上下文和视觉、音频理解,在 Claw-Eval 上反超前代旗舰 MiMo-V2-Pro。Token Plan 同步重构,Pro 1 token = 2 credits、基础版 1 = 1,每日 0-8 点再打 8 折,新增包年订阅、享 88 折。
05|月之暗面开源「Kimi K2.6」,13 小时连编 4000 行代码;上线异常全员额度重置
Kimi K2.6 4 月 20 日晚间发布并开源,主打长程编码和 Agent 集群。SWE-Bench Pro 58.6%,领先所有参与对比的模型;Terminal-Bench 2.0 66.7%,比 GPT-5.4 和 Claude Opus 4.6 的 65.4% 高一截;带工具的 Humanity's Last Exam 拿到 54.0%。短板也有,不带工具的 HLE-Full 只有 34.7%,低于 GPT-5.4 的 39.8% 和 Gemini 3.1 Pro 的 44.4%;MathVision 87.4%,也落后 GPT-5.4 的 92.0%。月之暗面的判断是 K2.6 走的是工具与执行力路线,纯推理还得继续追赶。
Agent 集群从 K2.5 的 100 子 Agent / 1500 步直接扩展到 300 子 Agent / 4000 步。月之暗面的 RL 基础设施团队跑了一个连续 5 天自主运行的运维 Agent,承担监控、故障响应和系统维护。代码端,K2.6 在 Mac 本地部署了 Qwen3.5-0.8B,用小众的 Zig 语言重写推理代码,跑了 4000 多次工具调用、12 小时不间断、14 轮迭代,把吞吐从约 15 tokens/s 提到约 193 tokens/s,比 LM Studio 还快 20%。API 价格也跟着涨,每百万 tokens 输入 0.95 美元、输出 4 美元,缓存命中 0.16 美元,上下文 256K。4 月 20 日上线后访问量瞬间打满,加上后台 Agent 额度统计偏差,4 月 22 日 20:30 月之暗面把所有用户当月已用额度清零、重置为 100% 作为补偿。
06|Anthropic 二级市场冲上 1 万亿反超 OpenAI,谷歌随即拍板最高 400 亿加码
Forge Global CEO 凯利·罗德里克斯告诉 Business Insider,平台上 Anthropic 的成交估值稳定在 1 万亿美元,而 OpenAI 是 8800 亿、仅比 3 月份 8520 亿那轮融资估值高 3%。Saints Capital 联合创始人肯·索耶说有股东挂牌出让,对应估值 1.15 万亿;房地产科技平台 OpenHome 的创始人 4 月 22 日在社交媒体发文,称一家「知名成长型基金」愿以 1.05 万亿估值收购 Anthropic 股份;Rainmaker Securities CEO 格伦·安德森也收到一笔按 9600 亿估值买入的报价,他说「这个价格几周前还让人觉得根本不现实」。Caplight 数据显示,过去 12 个月二级市场对 Anthropic 的兴趣激增超过 650%。
Anthropic 自己披露的年化营收从 2025 年底约 90 亿美元飙到 2026 年 3 月超 300 亿美元,已经超过 OpenAI 公司确认的 240 亿(每月约 20 亿)年化数字,主要是企业用 Claude Code 和 API。4 月 24 日谷歌官宣对 Anthropic 投资最高 400 亿美元,先以现金投 100 亿,按 3500 亿估值(与 2 月 G 轮持平),业绩达标后再追加 300 亿;谷歌云未来五年提供约 5 GW 算力。亚马逊也在 4 月 21 日宣布在已有 80 亿基础上追加 50 亿、最高再加 200 亿。多名金融分析师对这种「云厂一边投 AI 公司、一边卖芯片和算力给它」的循环交易提出过担忧。Anthropic 还在为最早 2026 年底 IPO 做准备,目标 IPO 估值 4000 到 5000 亿美元,由高盛和摩根大通担任顾问。
07|OpenAI 发布「GPT-5.5」反扑 Claude,编程王座抢回,Token 成本降至 1/35
GPT-5.5 4 月 24 日上线 ChatGPT 和 API,跑分上从 Claude Opus 4.7 手里抢回了多项第一。Terminal-Bench 2.0 82.7%,比 Opus 4.7 的 69.4% 高 13.3 个百分点;OSWorld-Verified 78.7%,跨过人类基线;GDPval 拿到 84.9%,覆盖 44 种职业的知识工作。SWE-Bench Pro 58.6%,仍落后 Opus 4.7 的 64.3%。OpenAI 提到 Anthropic 自己披露 Opus 4.7 在这条榜单上有记忆污染,剔除受影响样本后才给出分数。Expert-SWE 是一个内部前沿评测,任务的中位人类完成时间 20 小时,GPT-5.5 从 GPT-5.4 的 68.5% 提到 73.1%。GPT-5.5 直接顶替 GPT-5.4 成了 ChatGPT 默认模型,Plus、Pro、Business、Enterprise、Edu、Go、Teachers 都能用。
基于英伟达 GB200 NVL72,GPT-5.5 完成等量任务消耗的 token 比 GPT-5.4 少。OpenAI 的说法是相比前代系统,每百万 token 成本降到 35 分之一、每兆瓦 token 输出量提升 50 倍,原本几天的调试周期被缩到几小时。但 API 报价反而翻了一番,每百万 tokens 输入 5 美元、缓存 0.5 美元、输出 30 美元,GPT-5.5 Pro 是 30 美元和 180 美元。Codex 内开放 400K 上下文窗口,新增 Fast 模式,花 2.5 倍成本换 1.5 倍 token 生成速度。OpenAI 自己披露,公司里已经有超过 85% 的员工每周用 Codex 干活,财务团队用 GPT-5.5 在 Codex 里审了 24771 份 K-1 税表、71637 页,比上一年提前两周收工。
08|OpenAI 双发,「ChatGPT Images 2.0」接联网思考,「Workspace Agents」顶替 custom GPTs
4 月 21 日 OpenAI 上线 ChatGPT Images 2.0,模型标识 gpt-image-2,是第一个原生集成 Thinking 推理能力的图像模型。Thinking 模式下模型可以联网查实时信息、在生图前先做规划,并对一组输出做一致性复核,一次最多生成 8 张在角色和元素上保持连贯的图像。Image Arena 拿下三榜第一:文本转图像 1512 分,领先第二 242 分;单图编辑 1513 分,领先 125;多图编辑 1464 分,领先 90。基础版向所有 ChatGPT 和 Codex 用户开放(含免费层),Thinking 仅限 Plus、Pro、Business、Enterprise 付费用户。DALL-E 2 和 DALL-E 3 将于 5 月 12 日退役,由 gpt-image-2 接棒。
4 月 22 日紧接着上线 Workspace Agents,由 Codex 驱动的多步骤云端 Agent,明确顶替 2023 年底推出的 custom GPTs。一个 Workspace Agent 可以接入 Slack、Salesforce、Google Drive、微软套件、Notion、Atlassian Rovo 等第三方应用,跨系统取上下文、请审批,团队建一次可以一起用、一起改。OpenAI 自己已经跑了几个内部范例,包括软件审查 Agent、产品反馈路由 Agent、每周指标报告 Agent、线索拓展 Agent,还有会计团队用来准备月末结账、自动出工作底稿的版本。ChatGPT Business 20 美元/用户/月起就能用,5 月 6 日前免费,之后按积分计价。Workspace Agents 发布的同一天,谷歌在 Cloud Next 2026 上发了 Gemini Enterprise Agent Platform,前一天微软也发了 Agent 365,三家正面碰上了。
09|谷歌「Gemini 3.1 Pro」深度研究双智能体上线,原生 MCP 接专有数据源
谷歌 4 月 21 日把 12 月就预览过的研究智能体升级了一版,分成 Deep Research 和 Deep Research Max 两档,都基于 Gemini 3.1 Pro。标准版优化交互延迟,Max 版处理长时间异步任务,比如尽调报告这种需要反复推理、检索、提炼的活儿,靠拉长推理时间完成长链路任务。两个智能体都接入 MCP 协议,可以连金融、市场这类专业数据流,也能搜网页、读上传的文件、对接已连接的云存储;单次 API 调用就能融合开放网络数据和企业专有数据,并在报告内生成原生图表与信息图。
跑分上 Max 版 DeepSearchQA 拿到 93.3%(12 月预览版 66.1%),Humanity's Last Exam 54.6%(前版 46.4%);底层 Gemini 3.1 Pro 在 ARC-AGI-2 上是 77.1%。流程上加了协作规划、实时流式输出、多模态检索、扩展工具集,用户可以在执行前审查并修改智能体的研究计划,再让它跑。可用性是这次发布最大的争议,两款智能体仅通过 Gemini API 付费层公开预览,Gemini 消费应用 Pro 订阅者用不上,社交媒体上不少订户在抱怨。也有人指出谷歌的对比图在百分比改进的呈现方式上有夸大嫌疑。12 月预览版的定价是输入和输出每百万 token 各 2 美元、1M 上下文。
10|SpaceX 600 亿美元期权抢下 Cursor,微软曾考虑收购但放弃
4 月 21 日 SpaceX 宣布拿到一份对 Cursor 的期权:要么今年晚些时候以 600 亿美元买下,要么支付 100 亿美元用于双方合作。SpaceX 对外讲的故事是它自己有相当于百万块 H100 的「巨像」(Colossus)训练超算,加上 Cursor 面向专业软件工程师的产品和分发渠道,可以做出全球最具实用价值的 AI 模型。Cursor CEO 迈克尔·特鲁埃尔在社交媒体上回应,「十分期待和 SpaceX 团队合作扩大 Composer 的规模」。同期 Cursor 还在融自己的 D 轮,由 a16z 领投、英伟达和兴盛资本参投,估值超 500 亿、规模 20 亿美元;600 亿期权价正好比这个一级市场估值高 20%。
在 SpaceX 这份期权之前,据爆料微软其实先看过 Cursor,评估之后没出价。微软自己的 GitHub Copilot 付费用户已经到 470 万、同比涨 75%,但在 Cursor、Anthropic、OpenAI 主导的 AI 编程战场上,微软的角色更多是投资人和云服务商,亲自下场的产品反而没跑通。Cursor 这边先后两次拒绝过 OpenAI 的接洽,把保持独立放在了优先级最前。SpaceX 自己 4 月初秘密递交了 IPO 申请,目标估值 1.75 万亿到 2 万亿美元、拟募资 750 亿美元,有望成为史上最大 IPO。马斯克今年 3 月对 xAI 工程团队做过一轮裁员,公开说过 xAI 编程工具落后于竞品,也曾从 Cursor 挖过人。