AI Weekly 4.20-4.26

本周 AI 快讯 | 1 分钟速览

01 DeepSeek V4 预览版开源，1.6 万亿参数携手华为昇腾 ：V4-Pro 限时 2.5 折，输入命中 0.25 元、输出 6 元/百万 tokens；FP4 精度对接昇腾 950PR，1M 上下文成所有官方服务标配。

02 腾讯混元 Hy3 preview 开源，姚顺雨入职后首张答卷 ：2950 亿总参 / 210 亿激活 MoE，256K 上下文；从启动训练到上线不到三个月，已在 QQ、元宝、CodeBuddy、腾讯文档等首批落地。

03 阿里 Qwen3.6 同周双发，27B 稠密超越 15 倍参数 MoE 旗舰 ：Qwen3.6-Max-Preview 4 月 20 日上线 Qwen Studio；4 月 22 日开源的 Qwen3.6-27B 拿下 SWE-bench Verified 77.2、Terminal-Bench 2.0 59.3，逐项超过前代 3970 亿 MoE。

04 小米 MiMo-V2.5 公测，Pro 版 4.3 小时手搓 SysY 编译器拿满分 ：北大《编译原理》本科生通常需数周，MiMo-V2.5-Pro 用 672 次工具调用拿下 233/233；首次冷启动通过率 59%，对标 Claude Opus 4.6、GPT-5.4。

05 月之暗面开源 Kimi K2.6，13 小时连编 4000 行代码；上线异常全员额度重置 ：SWE-Bench Pro 58.6 领先所有对比，Terminal-Bench 2.0 66.7 超 GPT-5.4 和 Opus 4.6；Agent 集群升至 300 子 Agent / 4000 步，纯推理 HLE-Full 仅 34.7。

06 Anthropic 二级市场估值冲上 1 万亿，谷歌随即拍板最高 400 亿加码 ：Forge Global 估值反超 OpenAI 的 8800 亿；谷歌先投 100 亿美元（按 3500 亿估值）、达标再追加 300 亿、五年提供约 5 GW 算力；亚马逊同周也宣布最高再加 200 亿。

07 OpenAI GPT-5.5 反扑 Claude，编程王座抢回，Token 成本降至 1/35 ：Terminal-Bench 2.0 82.7 比 Claude Opus 4.7 高 13.3 个百分点；OSWorld-Verified 78.7 超人类基线；API 比 GPT-5.4 翻倍至每百万输入 5 美元、输出 30 美元。

08 OpenAI 同周双发：ChatGPT Images 2.0 接联网思考，Workspace Agents 顶替 custom GPTs ：gpt-image-2 一次最多生成 8 张连贯图像，Image Arena 三榜第一；DALL-E 2、DALL-E 3 将于 5 月 12 日退役；Workspace Agents 由 Codex 驱动，可接入 Slack、Salesforce、Google Drive 等。

09 谷歌 Gemini 3.1 Pro Deep Research / Max 上线，原生 MCP 接专有数据源 ：DeepSearchQA 93.3 比 12 月预览版的 66.1 大幅提升，Humanity's Last Exam 拿到 54.6；仅 API 付费层可用，Gemini 消费应用 Pro 订阅者用不上。

10 SpaceX 600 亿期权抢下 Cursor，微软曾考虑收购但放弃 ：要么年内 600 亿美元买下、要么支付 100 亿合作费；同期 Cursor 正以 500 亿估值募 20 亿美元；CNBC 爆料微软评估后没出手，GitHub Copilot 付费用户已达 470 万、同比涨 75%。

01｜DeepSeek 开源「V4 预览版」，1.6 万亿参数对接华为昇腾，Pro 版限时 2.5 折

4 月 24 日 DeepSeek 在 Hugging Face 同步开源 V4-Pro 和 V4-Flash 两款 MoE 模型预览版，同时开源了新一代注意力机制 DSA（DeepSeek Sparse Attention）。V4-Pro 总参 1.6 万亿、激活 490 亿，刷新了国产开源最大参数纪录，超过此前的 Kimi K2.6（总参 1 万亿）；V4-Flash 总参 2840 亿、激活 130 亿，定位经济档。两款模型都原生支持 1M 上下文，1M 也成为 DeepSeek 所有官方服务的标配。在 1M 设置下，V4-Pro 单 token 推理 FLOPs 只有 V3.2 的 27%、KV Cache 10%；V4-Flash 进一步降到 10% 和 7%。

API 定价方面，V4-Flash 输入命中 0.2 元、未命中 1 元、输出 2 元；V4-Pro 限时 2.5 折后输入命中 0.25 元、未命中 3 元、输出 6 元，原价是 1 元、12 元、24 元（均按每百万 tokens）。技术报告第 3.1 节首次把华为昇腾和英伟达并列写进硬件验证清单，MoE 专家权重和稀疏注意力索引器都采用 FP4 精度，正好对应华为 3 月发布的昇腾 950PR 原生支持的 mxFP4。DeepSeek 在发布文章里写道，「预计下半年昇腾 950 超节点批量上市并部署之后，Pro 版本的价格也会大幅度下调」。官方对 V4 的自评是仍落后 GPT-5.4 和 Gemini 3.1 Pro 约 3 到 6 个月，所以这版定位为 preview，正式版预计 6 月推出。同时 DeepSeek 启动了成立以来首次外部融资，目标估值至少 100 亿美元、募资不少于 30 亿美元。

02｜腾讯混元发布并开源「Hy3 preview」，姚顺雨带队三个月交出第一份答卷

腾讯混元 4 月 23 日正式发布并开源 Hy3 preview，总参 2950 亿、激活 210 亿的 MoE 架构，最大支持 256K 上下文，快慢思考融合。这是 2025 年底加盟腾讯的首席 AI 科学家姚顺雨主导的第一代模型，从 2026 年 1 月底启动训练到上线，用了不到三个月。混元团队 2 月在姚顺雨带领下重建了预训练和强化学习基础设施，确立了三条原则：能力体系化、评测真实性、性价比追求。Hy3 preview 在代码智能体基准 SWE-Bench Verified、Terminal-Bench 2.0 和搜索智能体基准 BrowseComp、WideSearch 上都跑了测评，也参加了清华求真书院数学博资考、全国中学生生物学联赛 CHSBO 2025 这类真实考试，但腾讯没在博客里给出具体跑分数据。

在腾讯云大模型服务平台 TokenHub 上，Hy3 preview 输入价格最低 1.2 元、命中缓存 0.4 元、输出最低 4 元（每百万 tokens），个人版套餐最低 28 元一个月。腾讯解释这个价格是模型和推理框架深度协同的结果，整体推理效率比上一代提升 40%。模型已在腾讯云、元宝、CodeBuddy、WorkBuddy、QQ、ima、QQ 浏览器、腾讯文档、腾讯乐享首批上线，微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书也在陆续上线，同时支持接入 OpenClaw、OpenCode、KiloCode 等开源 Agent。姚顺雨在博客中说，「Hy3 preview 是混元大模型重建的第一步」，希望从开源社区拿到真实反馈来改进正式版。

03｜阿里 Qwen3.6 同周双发，开源 27B 稠密版打穿前代 397B MoE 旗舰

4 月 20 日 Qwen3.6-Max-Preview 上线 Qwen Studio，相比 Qwen3.6-Plus，世界知识 SuperGPQA +2.3、智能体编程 SkillsBench +9.9、SciCode +10.8、NL2Repo +5.0、Terminal-Bench 2.0 +3.8、指令遵循 ToolcallFormatIFBench +2.8。两天后的 4 月 22 日，阿里以 Apache 2.0 协议开源了 Qwen3.6-27B，社区呼声最高的稠密多模态档位，原生支持视觉语言的思考与非思考双模式。

Qwen3.6-27B 仅凭 270 亿参数就在主流编程基准上逐项超过前代旗舰 Qwen3.5-397B-A17B，后者总参 3970 亿、激活 170 亿，体量是稠密版的 15 倍左右。27B 拿到 SWE-bench Verified 77.2（前代 76.2）、SWE-bench Pro 53.5（前代 50.9）、Terminal-Bench 2.0 59.3（前代 52.5）、SkillsBench 48.2（前代 30.0）。稠密架构无需 MoE 路由即可部署，对算力有限的团队比 MoE 更友好。权重已在 Hugging Face 和 ModelScope 上线，阿里云百炼即将开放 API 调用，并支持 preserve_thinking 选项，能在多轮对话里保留前序思考过程。模型也可以接入 OpenClaw、Claude Code、Qwen Code 等编程助手。

04｜小米「MiMo-V2.5」公测，Pro 版 4.3 小时手搓 SysY 编译器拿下 233/233

原 DeepSeek 核心成员罗福莉带队的小米 MiMo 团队 4 月 23 日深夜开放了 V2.5 系列公测，旗舰推理版 MiMo-V2.5、全模态 Agent 版 MiMo-V2.5-Pro 都已上线，权重即将开源；语音的 V2.5-TTS Series 和 V2.5-ASR 也即将推出。距上次 V2 系列三连更只隔 36 天。最受关注的是一个北大《编译原理》课程项目，要求用 Rust 从零写一个 SysY 编译器，含词法、语法、AST、Koopa IR 代码生成、RISC-V 汇编后端、性能优化六层。北大本科生完成这个项目通常需要几周，MiMo-V2.5-Pro 用 4.3 小时、672 次工具调用跑完，隐藏测试集 233/233 满分。

模型先把整条流水线骨架搭出来，再逐层攻克。Koopa IR 满分（110/110）、RISC-V 后端满分（103/103）、性能优化满分（20/20），首次编译就有 137/233 通过，冷启动通过率 59%。第 512 轮一次重构让 lv9/riscv 回退两个测试点，模型自行诊断、恢复、继续推进。视频编辑器 Web 应用是官方放的第二个案例，8192 行代码、1868 次工具调用、11.5 小时自主完成，包含多轨道时间线、片段裁剪、交叉淡化、音频混合和导出。基础版 MiMo-V2.5 原生支持 1M 上下文和视觉、音频理解，在 Claw-Eval 上反超前代旗舰 MiMo-V2-Pro。Token Plan 同步重构，Pro 1 token = 2 credits、基础版 1 = 1，每日 0-8 点再打 8 折，新增包年订阅、享 88 折。

05｜月之暗面开源「Kimi K2.6」，13 小时连编 4000 行代码；上线异常全员额度重置

Kimi K2.6 4 月 20 日晚间发布并开源，主打长程编码和 Agent 集群。SWE-Bench Pro 58.6%，领先所有参与对比的模型；Terminal-Bench 2.0 66.7%，比 GPT-5.4 和 Claude Opus 4.6 的 65.4% 高一截；带工具的 Humanity's Last Exam 拿到 54.0%。短板也有，不带工具的 HLE-Full 只有 34.7%，低于 GPT-5.4 的 39.8% 和 Gemini 3.1 Pro 的 44.4%；MathVision 87.4%，也落后 GPT-5.4 的 92.0%。月之暗面的判断是 K2.6 走的是工具与执行力路线，纯推理还得继续追赶。

Agent 集群从 K2.5 的 100 子 Agent / 1500 步直接扩展到 300 子 Agent / 4000 步。月之暗面的 RL 基础设施团队跑了一个连续 5 天自主运行的运维 Agent，承担监控、故障响应和系统维护。代码端，K2.6 在 Mac 本地部署了 Qwen3.5-0.8B，用小众的 Zig 语言重写推理代码，跑了 4000 多次工具调用、12 小时不间断、14 轮迭代，把吞吐从约 15 tokens/s 提到约 193 tokens/s，比 LM Studio 还快 20%。API 价格也跟着涨，每百万 tokens 输入 0.95 美元、输出 4 美元，缓存命中 0.16 美元，上下文 256K。4 月 20 日上线后访问量瞬间打满，加上后台 Agent 额度统计偏差，4 月 22 日 20:30 月之暗面把所有用户当月已用额度清零、重置为 100% 作为补偿。

06｜Anthropic 二级市场冲上 1 万亿反超 OpenAI，谷歌随即拍板最高 400 亿加码

Forge Global CEO 凯利·罗德里克斯告诉 Business Insider，平台上 Anthropic 的成交估值稳定在 1 万亿美元，而 OpenAI 是 8800 亿、仅比 3 月份 8520 亿那轮融资估值高 3%。Saints Capital 联合创始人肯·索耶说有股东挂牌出让，对应估值 1.15 万亿；房地产科技平台 OpenHome 的创始人 4 月 22 日在社交媒体发文，称一家「知名成长型基金」愿以 1.05 万亿估值收购 Anthropic 股份；Rainmaker Securities CEO 格伦·安德森也收到一笔按 9600 亿估值买入的报价，他说「这个价格几周前还让人觉得根本不现实」。Caplight 数据显示，过去 12 个月二级市场对 Anthropic 的兴趣激增超过 650%。

Anthropic 自己披露的年化营收从 2025 年底约 90 亿美元飙到 2026 年 3 月超 300 亿美元，已经超过 OpenAI 公司确认的 240 亿（每月约 20 亿）年化数字，主要是企业用 Claude Code 和 API。4 月 24 日谷歌官宣对 Anthropic 投资最高 400 亿美元，先以现金投 100 亿，按 3500 亿估值（与 2 月 G 轮持平），业绩达标后再追加 300 亿；谷歌云未来五年提供约 5 GW 算力。亚马逊也在 4 月 21 日宣布在已有 80 亿基础上追加 50 亿、最高再加 200 亿。多名金融分析师对这种「云厂一边投 AI 公司、一边卖芯片和算力给它」的循环交易提出过担忧。Anthropic 还在为最早 2026 年底 IPO 做准备，目标 IPO 估值 4000 到 5000 亿美元，由高盛和摩根大通担任顾问。

07｜OpenAI 发布「GPT-5.5」反扑 Claude，编程王座抢回，Token 成本降至 1/35

GPT-5.5 4 月 24 日上线 ChatGPT 和 API，跑分上从 Claude Opus 4.7 手里抢回了多项第一。Terminal-Bench 2.0 82.7%，比 Opus 4.7 的 69.4% 高 13.3 个百分点；OSWorld-Verified 78.7%，跨过人类基线；GDPval 拿到 84.9%，覆盖 44 种职业的知识工作。SWE-Bench Pro 58.6%，仍落后 Opus 4.7 的 64.3%。OpenAI 提到 Anthropic 自己披露 Opus 4.7 在这条榜单上有记忆污染，剔除受影响样本后才给出分数。Expert-SWE 是一个内部前沿评测，任务的中位人类完成时间 20 小时，GPT-5.5 从 GPT-5.4 的 68.5% 提到 73.1%。GPT-5.5 直接顶替 GPT-5.4 成了 ChatGPT 默认模型，Plus、Pro、Business、Enterprise、Edu、Go、Teachers 都能用。

基于英伟达 GB200 NVL72，GPT-5.5 完成等量任务消耗的 token 比 GPT-5.4 少。OpenAI 的说法是相比前代系统，每百万 token 成本降到 35 分之一、每兆瓦 token 输出量提升 50 倍，原本几天的调试周期被缩到几小时。但 API 报价反而翻了一番，每百万 tokens 输入 5 美元、缓存 0.5 美元、输出 30 美元，GPT-5.5 Pro 是 30 美元和 180 美元。Codex 内开放 400K 上下文窗口，新增 Fast 模式，花 2.5 倍成本换 1.5 倍 token 生成速度。OpenAI 自己披露，公司里已经有超过 85% 的员工每周用 Codex 干活，财务团队用 GPT-5.5 在 Codex 里审了 24771 份 K-1 税表、71637 页，比上一年提前两周收工。

08｜OpenAI 双发，「ChatGPT Images 2.0」接联网思考，「Workspace Agents」顶替 custom GPTs

4 月 21 日 OpenAI 上线 ChatGPT Images 2.0，模型标识 gpt-image-2，是第一个原生集成 Thinking 推理能力的图像模型。Thinking 模式下模型可以联网查实时信息、在生图前先做规划，并对一组输出做一致性复核，一次最多生成 8 张在角色和元素上保持连贯的图像。Image Arena 拿下三榜第一：文本转图像 1512 分，领先第二 242 分；单图编辑 1513 分，领先 125；多图编辑 1464 分，领先 90。基础版向所有 ChatGPT 和 Codex 用户开放（含免费层），Thinking 仅限 Plus、Pro、Business、Enterprise 付费用户。DALL-E 2 和 DALL-E 3 将于 5 月 12 日退役，由 gpt-image-2 接棒。

4 月 22 日紧接着上线 Workspace Agents，由 Codex 驱动的多步骤云端 Agent，明确顶替 2023 年底推出的 custom GPTs。一个 Workspace Agent 可以接入 Slack、Salesforce、Google Drive、微软套件、Notion、Atlassian Rovo 等第三方应用，跨系统取上下文、请审批，团队建一次可以一起用、一起改。OpenAI 自己已经跑了几个内部范例，包括软件审查 Agent、产品反馈路由 Agent、每周指标报告 Agent、线索拓展 Agent，还有会计团队用来准备月末结账、自动出工作底稿的版本。ChatGPT Business 20 美元/用户/月起就能用，5 月 6 日前免费，之后按积分计价。Workspace Agents 发布的同一天，谷歌在 Cloud Next 2026 上发了 Gemini Enterprise Agent Platform，前一天微软也发了 Agent 365，三家正面碰上了。

09｜谷歌「Gemini 3.1 Pro」深度研究双智能体上线，原生 MCP 接专有数据源

谷歌 4 月 21 日把 12 月就预览过的研究智能体升级了一版，分成 Deep Research 和 Deep Research Max 两档，都基于 Gemini 3.1 Pro。标准版优化交互延迟，Max 版处理长时间异步任务，比如尽调报告这种需要反复推理、检索、提炼的活儿，靠拉长推理时间完成长链路任务。两个智能体都接入 MCP 协议，可以连金融、市场这类专业数据流，也能搜网页、读上传的文件、对接已连接的云存储；单次 API 调用就能融合开放网络数据和企业专有数据，并在报告内生成原生图表与信息图。

跑分上 Max 版 DeepSearchQA 拿到 93.3%（12 月预览版 66.1%），Humanity's Last Exam 54.6%（前版 46.4%）；底层 Gemini 3.1 Pro 在 ARC-AGI-2 上是 77.1%。流程上加了协作规划、实时流式输出、多模态检索、扩展工具集，用户可以在执行前审查并修改智能体的研究计划，再让它跑。可用性是这次发布最大的争议，两款智能体仅通过 Gemini API 付费层公开预览，Gemini 消费应用 Pro 订阅者用不上，社交媒体上不少订户在抱怨。也有人指出谷歌的对比图在百分比改进的呈现方式上有夸大嫌疑。12 月预览版的定价是输入和输出每百万 token 各 2 美元、1M 上下文。

10｜SpaceX 600 亿美元期权抢下 Cursor，微软曾考虑收购但放弃

4 月 21 日 SpaceX 宣布拿到一份对 Cursor 的期权：要么今年晚些时候以 600 亿美元买下，要么支付 100 亿美元用于双方合作。SpaceX 对外讲的故事是它自己有相当于百万块 H100 的「巨像」（Colossus）训练超算，加上 Cursor 面向专业软件工程师的产品和分发渠道，可以做出全球最具实用价值的 AI 模型。Cursor CEO 迈克尔·特鲁埃尔在社交媒体上回应，「十分期待和 SpaceX 团队合作扩大 Composer 的规模」。同期 Cursor 还在融自己的 D 轮，由 a16z 领投、英伟达和兴盛资本参投，估值超 500 亿、规模 20 亿美元；600 亿期权价正好比这个一级市场估值高 20%。

在 SpaceX 这份期权之前，据爆料微软其实先看过 Cursor，评估之后没出价。微软自己的 GitHub Copilot 付费用户已经到 470 万、同比涨 75%，但在 Cursor、Anthropic、OpenAI 主导的 AI 编程战场上，微软的角色更多是投资人和云服务商，亲自下场的产品反而没跑通。Cursor 这边先后两次拒绝过 OpenAI 的接洽，把保持独立放在了优先级最前。SpaceX 自己 4 月初秘密递交了 IPO 申请，目标估值 1.75 万亿到 2 万亿美元、拟募资 750 亿美元，有望成为史上最大 IPO。马斯克今年 3 月对 xAI 工程团队做过一轮裁员，公开说过 xAI 编程工具落后于竞品，也曾从 Cursor 挖过人。