炸裂!一家创业公司声称打破了 Transformer 七年魔咒

炸裂!一家创业公司声称打破了 Transformer 七年魔咒

AI 深度观察

12M token 上下文 · 算力降低 1000 倍 · 融资 2900 万美元 这是真正的架构革命,还是又一次 AI 营销泡沫?


两周前,一家叫 Subquadratic 的迈阿密初创公司从隐身模式中杀出,宣称打破了自 2017 年以来定义所有主流 AI 系统的数学约束。它的模型 SubQ,发布 24 小时内获得超过 1200 万次曝光,3 万人涌入候补名单。AI 圈炸了。

先搞懂问题本身

要理解 SubQ 为什么让人兴奋,先要理解 Transformer 架构的根本瓶颈。

flowchart LR subgraph Transformer["🔴 传统 Transformer"] direction TB A1["Attention 计算量 = O(n²)"] A2["token 翻倍 → 计算量翻四倍"] A3["长上下文:越贵 · 越慢 · 注意力退化"] end subgraph SubQ["🟢 SubQ 架构"] direction TB B1["Attention 计算量 ≈ O(n)"] B2["token 翻倍 → 计算量也翻倍"] B3["线性增长,长上下文友好"] end Transformer -- "SSA 次二阶选择注意力" --> SubQ

正是因为 O(n²),Claude、GPT、Gemini 的上下文越长越贵,越慢,也越容易出现"中间注意力退化"------模型装了一仓库书,却未必真的全记住了。

于是整个行业催生出 RAG(检索增强)、向量数据库、Context Compression、Memory System 这一套复杂体系,本质上是在用工程 patch 绕过架构瓶颈。

SubQ 的核心主张

mindmap root((SubQ 核心主张)) 指标 12M token 上下文 1000× 算力节省 $29M 种子轮融资 架构 SSA 只关注重要 token 稀疏图动态路由 平方复杂度 → 线性 产品线 全上下文 API SubQ Code 代码 Agent SubQ Search 长文档搜索 投资人 Justin Mateen Tinder 联合创始人 Javier Villamizar 前软银 Anthropic OpenAI Stripe Brex 早期投资人

该公司将其架构称为 SSA(Subquadratic Selective Attention,次二阶选择注意力)。它不是让每个 token 看所有 token,而是只关注"重要的 token"------类似稀疏图上的动态路由,理论上将计算复杂度从平方降至线性。

官方数据:在 1M token 下,SSA 比 FlashAttention 快 52 倍;研究版 12M token 时,相比主流前沿模型算力减少接近 1000 倍。产品线包括面向开发者的全上下文 API、代码 Agent SubQ Code,以及长文档搜索工具 SubQ Search,目前均为私测阶段。

投资人阵容包括 Tinder 联合创始人 Justin Mateen、前软银愿景基金合伙人 Javier Villamizar,以及 Anthropic、OpenAI、Stripe、Brex 的早期投资人。

为什么 Agent 圈子最激动

现在 AI Agent 最大的瓶颈,说实话不是"智商",而是上下文。做代码 Agent 的(Cursor、Claude Code、Codex),都在疯狂做 RAG、Chunk、Summary,本质原因就一个:整个工程仓库根本塞不进去。

SubQ 说:老子直接全塞进去

整个代码仓库、全部合同、所有日志、完整交互历史------一次性进 Context。官方甚至直接宣称"RAG 是 Transformer 时代的 workaround"。这句话如果成立,冲击的可不只是模型本身,而是整个 AI 基础设施栈:向量数据库、检索系统、记忆压缩、Context Engineering 工具链------都可能面临重构。

更关键的是,SubQ 主打的不只是"能放进去",而是"放进去还真能理解"。很多号称 1M 上下文的模型存在"Lost in the Middle"问题------表面上支持长上下文,实际注意力早已稀释。SubQ 在 RULER 128K 基准测试上报告了 95% 的精确度,Needle-in-Haystack 和精确复制任务表现也颇为亮眼。

技术路线全景

摆脱 Transformer 平方 Attention 这件事,行业里其实已经跑了好几条路线:

flowchart TD subgraph 目标["🎯 突破 Transformer O(n²) 天花板"] direction TB end 目标 --> R1["次二阶稀疏注意力"] 目标 --> R2["状态空间模型 SSM"] 目标 --> R3["线性注意力"] 目标 --> R4["检索增强"] 目标 --> R5["外部记忆"] 目标 --> R6["混合架构"] R1 --> S1["SubQ 🆕"] S1 --> S1S["⚠️ 私测中,待验证"] R2 --> S2["Mamba"] S2 --> S2S["已有一定规模验证"] R3 --> S3["RetNet / RWKV"] S3 --> S3S["下游任务仍有差距"] R4 --> S4["RAG 生态"] S4 --> S4S["最成熟,广泛部署"] R5 --> S5["MemGPT 等"] S5 --> S5S["应用层 patch"] R6 --> S6["Gemini / Claude 内部"] S6 --> S6S["主流厂商折中路线"] style S1 fill:#EEEDFE,stroke:#534AB7,color:#534AB7 style S1S fill:#FAEEDA,stroke:#EF9F27,color:#854F0B style S2S fill:#E1F5EE,stroke:#1D9E75,color:#0F6E56 style S4S fill:#E1F5EE,stroke:#1D9E75,color:#0F6E56

SubQ 的价值主张在于:之前所有次二阶方案,要么在下游任务上性能不如标准注意力,要么最终变成混合架构(实质还是 Transformer 内核)。他们声称自己是第一个"从头设计、全程次二阶、性能不妥协"的商用模型。

但是,要保持清醒

flowchart TD subgraph 警报["⚠️ 社区警报"] W1["论文细节不够公开"] W2["Benchmark 多是自测"] W3["API 仍处私测阶段"] W4["架构未开源"] end subgraph 先例["💀 历史先例:Magic.dev"] H1["2024.08 声称 1 亿 token 上下文"] H2["同样宣称 1000× 效率优势"] H3["融资 5 亿美元"] H4["2026 年初:外部使用证据几乎为零"] H1 --> H2 --> H3 --> H4 end subgraph 前车["其他承诺过线性复杂度的方案"] P1["Kimi Linear"] P2["DeepSeek 稀疏注意力"] P3["Mamba"] P4["RWKV"] end 警报 --> 先例 先例 --> 前车 style 警报 fill:#FCEBEB,stroke:#E24B4A,color:#A32D2D style 先例 fill:#FAEEDA,stroke:#EF9F27,color:#854F0B style 前车 fill:#FAEEDA,stroke:#EF9F27,color:#854F0B

研究人员指出,过去几年 Kimi Linear、DeepSeek 稀疏注意力、Mamba、RWKV 都承诺过线性复杂度,但共同面临一个问题:理论线性复杂度的架构,在大规模实际任务中往往表现不如标准 Transformer,或者最终混入了传统注意力层。

独立验证之前,"1000 倍效率"这个数字需要打一个大大的问号。

这件事值得长期关注的理由

争议归争议,但这个方向本身是真实的。整个 AI 行业在 2025-2026 年都在尝试突破 Transformer 平方 Attention 的天花板,这不是一家公司的营销话术,而是整个领域共同面对的工程现实。

如果 SubQ 的技术主张能在开放环境中得到独立验证,影响面将会非常广泛:代码 Agent、企业知识库、法律医疗等长文档分析、AI 长期记忆------这些场景都将迎来本质变化,而不只是工程层面的打补丁。

如果不能------那这将成为又一个 AI 行业过度融资、过度承诺的案例。我们拭目以待。

flowchart TD subgraph 待验证["🔍 SubQ 需要通过的三道关"] G1["独立基准测试"] G2["同行评审"] G3["开放访问"] end 待验证 --> 情景A["✅ 通过 → 行业格局改变"] 待验证 --> 情景B["❌ 未通过 → 又一个过度承诺案例"] 情景A --> A1["代码 Agent 质变"] 情景A --> A2["企业知识库重构"] 情景A --> A3["法律医疗长文档分析升级"] 情景A --> A4["AI 长期记忆突破"] style 待验证 fill:#EEEDFE,stroke:#534AB7,color:#534AB7 style 情景A fill:#E1F5EE,stroke:#1D9E75,color:#0F6E56 style 情景B fill:#FCEBEB,stroke:#E24B4A,color:#A32D2D

真正改变行业格局的技术,从来不是靠 X 上的曝光量决定的。SubQ 的架构主张,值得认真跟踪,但不值得提前庆祝。 独立基准测试、同行评审、开放访问------这三件事没发生之前,保持观望是最理性的态度。

相关推荐
MediaTea5 小时前
AI 术语通俗词典:全连接层
人工智能
深度学习lover5 小时前
<数据集>yolo 电线杆识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·电线杆识别
DevSecOps选型指南5 小时前
紧急AI安全情报 | 热门AI训练框架Pytorch Lightning遭受窃密蠕虫后门投毒
人工智能·安全·数字供应链安全
阳明山水5 小时前
LightGBM调优降MAPE至19%关键策略
人工智能·机器学习·微信·微信公众平台·微信开放平台
云朵观自在5 小时前
企业媒体宣发为何选择JHMS?——一家策略导向的媒体传讯服务商
大数据·人工智能·经验分享·媒体·jhms
学习论之费曼学习法5 小时前
AutoGen框架详解:微软Multi-Agent开发利器
人工智能·microsoft
Lee川5 小时前
MCP(Model Context Protocol)深度解析:从面试概念到代码实现
人工智能·面试
Maddie_Mo7 小时前
Unity 联动 Trae AI 项目开发基础教学
人工智能·unity·游戏引擎
光锥智能7 小时前
Google 与百度同步布局智能体:AI 竞争进入全栈能力比拼阶段
人工智能·百度