> 距离 DeepSeek V4 发布已过去近两周,但影响仍在持续扩散。Coder 工具链迎来结构性重塑,AI 监管进入新阶段。今天带你速览这些值得关注的变化。
一、DeepSeek V4:两周复盘,开源旗舰的冲击波仍在持续
4 月 24 日,DeepSeek 选在 OpenAI 发布 GPT-5.5 的同一天,正式开源 V4 系列(Pro + Flash)。两周过去,社区的评价趋于理性,但结论反而更清晰了。
模型核心参数回顾
| 维度 | V4-Pro | V4-Flash |
|------|--------|----------|
| 总参数 | 1.6T | 284B |
| 激活参数 | 49B | 13B |
| 上下文 | 1M token | 1M token |
| 开源协议 | Apache 2.0 | Apache 2.0 |
| 输出价格 | 3.48/M token \| 0.28/M token |
技术看点
V4 最值得关注的技术创新是混合注意力机制 (CSA + HCA),配合 mHC(流形约束超连接)残差传播和 Muon 优化器。这套组合拳的核心效果是:KV cache 仅为 V3.2 的 10% ,推理 FLOPs 降至 27%。这使得 1M 上下文不再是营销口号,而是真正可负担的服务。
另外注意一个细节:V4 的开源协议从 V3 的 MIT 升级到了 Apache 2.0。对企业用户来说,这比任何 benchmark 数字都更重要------包含明确的专利授权保护条款,商业部署的法律风险大幅降低。
值得关注的 benchmark 事实
-
Codeforces Elo 3206 ,超过了 GPT-5.4 的 3168。竞赛编程领域的开源模型首次反超闭源旗舰。
-
中文 SimpleQA 84.4 ,仅次于 Gemini 3.1 Pro 的 85.9,在所有其他闭源和开源模型之上。
-
SWE-Bench Pro 55.4% ,落后于 Kimi K2.6 的 58.6%。真实代码库修复场景仍有差距。
-
MRCR 1M 长上下文召回 83.5%,落后于 Opus 4.6 的 92.9%。长文本精确检索还有提升空间。
个人点评:V4 Pro 的输出价格仅为 GPT-5.5 的 1/8.6、Opus 4.7 的 1/21,却能在多个维度达到或接近闭源旗舰水平。这种性价比重塑了整个 API 调用的决策逻辑。对于预算有限的个人开发者和中小企业,"先试 Flash,不够再上 Pro"将成为新常态。
社区动态
-
V4 发布当天意外触发华为昇腾芯片适配 相关讨论(技术报告显示训练仍基于 CUDA),引起部分争议。
-
旧模型名称 `deepseek-chat` 和 `deepseek-reasoner` 将于 7 月 24 日下线,当前已全部路由到 V4-Flash。
-
社区最活跃的讨论集中在 Apache 2.0 许可的商业部署价值,而非单纯的性能参数。
二、Cursor 3 发布:IDE 不再是主角,智能体控制台才是
4 月初发布的 Cursor 3(代号 Glass)在本周持续引发讨论。这不是一次常规的版本更新,而是对"AI 编程工具应该长什么样"的一次根本性重构。
发生了什么
Cursor 3 将智能体管理控制台设为主界面,「文件树」的位置被提示词输入框取代。工程师的核心工作流从"写代码"变成了"调度智能体→审查输出→决定发布"。
几个关键功能:
-
Cloud Handoff(云交接) :智能体会话可在笔记本和云端之间无缝迁移。关掉电脑,任务在云端继续运行;回到桌面一键拉回继续编辑。
-
多仓库默认支持 :智能体和用户可同时在多个仓库中操作。
-
统一侧边栏:集成来自本地、云端、移动设备、Web 客户端、Slack、GitHub 和 Linear 的所有智能体会话。
为什么会有这次转变
《财富》杂志 3 月的一篇报道揭示了一个尴尬的现实:Anthropic 的 Claude Code 一年内将年化收入拉到 25 亿美元,势头压过了 Cursor。多位知名开发者公开表示从 Cursor 转向 Claude Code。Cursor 的投资人也坦言"信心在瓦解"。
作为回应,Cursor 在六周内连出三拳:
-
Automations(3/5) :智能体可被 GitHub 事件、Slack 消息、定时器自动触发
-
Composer 2 + Kimi K2.5(3/19) :首个自研模型驱动,CursorBench 得分 61.3 超越 Claude Opus 4.6 的 58.2
-
Cursor 3(4/2):界面全面重构,IDE 降格为备选视图
行业格局分歧
围绕"编排层应该在哪",各家大厂走出了不同路线:
-
Anthropic(Claude Code) :终端优先,CLI 即是编排层
-
OpenAI(Codex) :无处不在------桌面 App + CLI + VS Code 扩展 + 云界面
-
Cursor + 谷歌(Antigravity):编排层与编辑器共存于同一应用
个人点评:从"写代码的工具"到"管理智能体的工具",这个转变的深远程度可能被低估了。若 Cursor 3 的判断正确------监督智能体比编辑文件更重要------那么过去 40 年由代码编辑器定义的软件开发范式,正在被根本性地改写。
三、Anthropic / Claude:生态扩张与监管呼声并存
Claude Code 生态持续壮大
Claude Code 自发布以来的增长势头惊人。社区生态也在快速成熟:
-
Browserbase Skills :最新开源的 SDK,专为 Claude Code 设计的网页浏览能力扩展,让 AI Agent 可以直接操作浏览器。
-
Ruflo :基于 Claude 的多智能体编排平台,支持企业级 RAG 集成和自动化工作流部署。
-
claude-mem:自动捕获编码会话上下文,用 AI 压缩并注入到未来会话,解决了 Claude Code 跨会话记忆问题的插件。
Anthropic CEO 呼吁监管
5 月 5 日,Anthropic CEO 表示"政府应当出台规则约束人工智能模型的发布"。结合同日的另一条新闻------美国政府与微软、谷歌、xAI 达成协议,要求前沿 AI 模型在公开发布前提前向政府开放权限进行安全审查------可以看到 AI 监管正在从"讨论阶段"进入"落地阶段"。
个人点评:Anthropic 一直是对 AI 安全最激进的推动者。CEO 主动呼吁监管,既是公司价值观的体现,也是一种策略------如果监管不可避免,不如由行业领导者参与定义规则。值得关注的是,美国各州 CISO 也在联名致信 OpenAI、Anthropic、微软和谷歌,要求将州级安全团队纳入模型测试体系。AI 治理博弈正在从"联邦 vs 企业"扩展到"地方 vs 联邦 vs 企业"的三方格局。
四、AI 开发工具生态:Trae 定价争议与开源测试工具兴起
Trae 的定价策略引发讨论
字节跳动的 Trae IDE 推出了从 Free 到 Ultra 的 5 档套餐(0\~30+/月),其中新增的"优速通"999 元/30 天套餐在知乎引发热议。多数评论认为这是"免费变付费"的渐进策略,部分用户表示准备迁移回 Cursor 或其他工具。
不过 Trae 3.0 的 SOLO 模式获得了不少正面评价------该模式允许 AI Agent 独立完成从需求分析到编码实现的全流程,对于原型快速开发场景颇有价值。
开源 AI 测试工具出现
GitHub 上值得关注的新项目 jcode------一个专为代码智能体(Code Agent)设计的测试框架。随着 AI 编程助手从代码补全进化为自主智能体,如何评估其任务执行的准确性和可靠性成为新痛点。jcode 试图为此提供标准化评测环境,类似 AI 编程领域的 SWE-Bench。
五、行业宏观:AI 监管加速、就业叙事重塑、医疗突破
特朗普政府加强 AI 监管
5 月 6 日的最新消息:特朗普政府正在推动新的 AI 监管框架,将测试谷歌等公司的模型,白宫或设立全新 AI 工作组。同一天还传出 Coinbase 裁员 14% 并组织架构重组,CEO Brian Armstrong 表示"借助 AI,管理者将亲自参与业务、直管下属最多可达 15 人"------这可能是 AI 影响组织结构的早期信号。
黄仁勋反驳"AI 末日论"
NVIDIA CEO 黄仁勋在 5 月 4 日的公开讨论中强调:AI 是"工业规模的就业机会生成器",AI 硬件工厂需要大量工人,自动化某个任务不等于取代一整份工作。这番表态与摩根大通 CEO 戴蒙的"AI 对劳动力的负面影响是合理担忧"形成有趣的对比。
哈佛 AI 医疗诊断研究
哈佛大学最新研究显示,大语言模型在急诊室诊断准确率已超越人类医生。这项基于真实病例的研究为 AI 在高压临床场景的应用提供了有力证据。虽然从研究到大规模落地还有距离,但方向已经明确。
总结与展望
本周的 AI 新闻呈现三个清晰的趋势:
-
开源模型正在改写游戏规则 。DeepSeek V4 的性价比已经让它成为许多场景下的默认选型。接下来要关注的是国产算力适配进展和 Agent 场景优化。
-
AI 编程工具进入"智能体编排"时代 。Cursor 3 是一个信号------未来的开发者不是在写代码,而是在管理一群会写代码的智能体。选择哪个平台,可能比选择哪个模型更关键。
-
AI 监管从讨论走向落地。美国联邦 + 各州 + 行业协会三方的监管博弈正在加速。对开发者而言,这意味着模型选择和安全合规将成为产品架构层面的前置考量。
*本文由 AI 辅助收集整理,内容基于公开信息,已人工审核。如有错漏欢迎指正。*