
【新智元导读】20 人国内团队,竟然提前 2 年预判到了 DeepSeek 的构想?玉盘 AI 的全新计算架构方案浮出水面后,直接震动业内:当前 AI 算力的核心瓶颈,他们试图从硬件源头解决!
如果有一种芯片,天生只为大模型而生,能否突破当前 AI 的算力瓶颈?
要知道,如今的芯片算力,强依赖于制程、工艺等非芯片设计因素。
这是因为,传统通用型的 GPGPU 计算架构在应对日益庞大的模型和复杂计算时,其硬件固有的局限性日益凸显。

通用图形处理器(General-Purpose Graphics Processing Unit,GPGPU)
在这样的背景下,学术界和产业界都在积极探索新的更针对 AI 大模型痛点的架构方案。
近期,来自 DeepSeek 最新一篇论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,梳理了用户视角下当前大模型训练与推理中所面临的具体技术挑战,以及对后续 AI 硬件发展的构想。

与此同时,国内团队玉盘 AI 的 SRDA 系统级数据流计算架构方案也浮出水面,意图从硬件源头解决当前 AI 算力的核心瓶颈。
不少玉盘 SRDA 在做的事情和 DeepSeek 构想相似,SRDA 在当前节点推出,或某种程度较好集合了业界关于下一代 AI 硬件的共识。
玉盘核心班底目前仅 20 余人,平均年龄仅 30+,让人不禁联想到硅谷 AI 芯片明星创企 Etched------三名哈佛大学学生创办,流片时团队规模仅 35 人。
可以说,玉盘团队无疑是 AI 时代精简团队挑战大象的又一范例,也颠覆了大众对芯片公司规模的传统观念。
**Etched 芯片是针对 Transformer 架构做推理 ASIC,玉盘 SRDA 则是精简但可重构的数据流架构,对 Transformer、Diffusion、Mamba、MoE 等都可支持模型训练与推理。
**

Etched Sohu:号称世界上第一个专用 LLM 计算的集成电路
同时,笔者也了解到,早在 2023 年大模型爆发前,玉盘原班底便开始研究 I/O 融合技术,并在 2023 年就发布了 eSPU AI Hub 方案,结合最近 DeepSeek 论文对比看,简直是 AI 基础设施版的我预判了你的预判
这,或许就是他们敢于现在就全面开源自己底层的架构思路的底气。
本文将审视玉盘团队白皮书中 SRDA 架构的核心特性,探讨其设计思路如何针对 AI 算力基础设施的若干关键问题提供可能的解决路径。

项目地址:github.com/moonquest-a...
让我们看看,国内的创新硬件团队已经思考到了什么层面,是否和 DeepSeek 这样高级玩家的所需契合。

大模型凶猛:AI 算力面临「N 重门」
在探讨 SRDA 架构之前,有必要先梳理其试图应对的模型挑战,也是 DeepSeek 论文指出的主要行业痛点:

-
**内存容量不足:**模型规模增长迅速,以 HBM 为代表的内存容量增长缓慢。为了缓解这个问题,DeepSeek 采用了低精度计算和 MLA 两种手段,大幅削减模型参数和 KV Cache 的存储需求。
-
**内存带宽短缺:**尽管芯片的理论峰值算力不断提升,但由于模型规模增速远超内存带宽增速,在许多实际 AI 应用场景中,计算单元大部分时间可能因等待数据而闲置,未能充分发挥其计算潜力。
-
**计算精度不支持:**采用低精度计算能够大幅提高训练和推理的性能,但为了保证模型能力不受影响,需要采用高精度累加和细粒度的量化,纯软件实现的难度较高,也会导致额外的开销。
-
集群扩展难:随着模型规模的指数级增长,分布式训练和推理成为常态,这要求在集群层面进行高效扩展。然而,目前常见的节点内互联(scale-up,如 NVLink)和节点间互联(scale-out,如 Infiniband)往往采用不同的技术标准和硬件,这不仅增加了系统优化和管理的复杂度,也可能引入额外的通信延迟,影响整体扩展效率。
-
**PCIe 总线带宽竞争:**现有架构下,节点间通信和节点内 GPU 与 CPU 之间的数据传输(如 KV Cache)共享 PCIe 总线,存在竞争。通信被影响会导致难以预测的性能下降,影响系统整体性能。


SRDA 架构:打造 AI 计算新范式
这些痛点,是否有解决之道?
玉盘团队,从根本上找到了解决问题的思路。
根据团队公开的技术白皮书,SRDA 架构的核心理念被描述为回归 AI 计算的本质------即高度结构化的数据流动和变换。
这个设计目标,似乎并非对现有架构的简单改良,而是尝试进行更根本性的调整。
其关键设计哲学据称包括:
- 数据流驱动 (Dataflow Driven):与传统 GPGPU 的控制流架构不同,SRDA 将数据流置于核心地位。其硬件设计旨在直接映射 AI 计算图,使数据在计算单元间高效流转,从而期望大幅减少对内存的反复访问和不必要的数据搬运。

-
**系统级数据流:**当数据流驱动与融合互联相结合,玉盘 SRDA 将数据流理念放到了整个数据中心层面,与过往数据流架构仅在芯片层面实现很不一样,当所有 SRDA 芯片都做到 all-to-all 全互联,整个数据中心会类似一台电脑运转。这是玉盘 SRDA 架构最引人瞩目的地方,最终让整个数据中心形成一条数据流,这将给大规模并行训练或大规模集群推理带来全新的硬件支撑,值得模型用户关注。
-
3D 堆叠高带宽内存:为了支持其数据流驱动的设计,SRDA 计划采用 3D 堆叠工艺,将大容量、高带宽内存直接集成在计算芯片之上,目标是从硬件层面缓解「内存墙」的压力。

-
精简高效:作为一种 AI 专用架构 (AI-DSA) 的设计思路,SRDA 旨在剥离通用处理器中可能对 AI 计算冗余的复杂控制逻辑,将硬件资源聚焦于 AI 核心运算,以期提升面积效率和能源效率。
-
融合高速互联:与英伟达互联方案中 NVLink + IB 双层互联网络不同,SRDA 架构构建统一的片内、片间至节点间高速互联网络。DeepSeek 论文中也提到了 I/O 融合、甚至把 I/O 做进算力芯片内部的思路,玉盘已经在把这一构想变为现实。玉盘进一步构建独立通信引擎,从硬件层面实现计算与通信解耦,这将进一步减轻软件层用户的硬件优化负担。

- 软件定义的可重构性:据称,其硬件的数据路径、部分计算单元功能组合和内存访问模式,可由编译器根据具体 AI 模型进行配置优化,赋予架构适应不同算法的潜力。
SRDA 能否回应 DeepSeek 等前沿玩家的需求
数据不再 **「堵车 」!SRDA 给每个计算单元配上 「专属高速公路」**
DeepSeek 论文中提到模型增长快于 HBM 技术发展,注意力机制等场景尤其受内存带宽瓶颈影响。其参考方案中提及了 3D DRAM 等技术方向。
传统 GPGPU 架构的核心痛点在于共享内存架构下,所有计算单元需要争抢内存资源,导致内存带宽成为瓶颈,SRDA 思路十分巧妙,其采用 3D 堆叠工艺及特殊内存架构,让每个计算单元独享大容量、高带宽内存。这一思路与 DeepSeek 提及的 3D DRAM 方向有共通之处,其目标是从硬件层面提升数据供给能力。
此外,SRDA 的「数据流驱动」设计哲学,旨在通过优化计算图的执行路径,减少对内存的反复访问和不必要的数据搬运,从而期望从计算模式层面降低对内存带宽的绝对压力,进而提升计算单元的有效利用率。
研发效率极高
有统计显示,2024 年主流大模型中,基于 Transformer 的架构占比达 92%,且 70% 算力消耗集中于 R1、Qwen 等开源模型。
这一趋势使得 AI 专用芯片企业仅需深度优化 2-3 个主流模型的训推流程,即可覆盖大部分市场需求。
玉盘架构正是抓住这个特点,去繁就简,相较于 GPU 需构建完整软件生态(如 CUDA),玉盘可聚焦硬件加速,据称研发投入可压缩至 GPU 企业的 1/5-1/3。
原生提供合适计算精度
现有的主流硬件的问题是,不直接提供针对低精度数据类型的高精度累加和细粒度量化。
针对这个精度问题,SRDA 原生支持 DeepSeek 等模型厂商开始探索的低精度 FP8,并原生支持高精度 FP32 累加和细粒度量化,充分发挥低精度计算优势。
告别 **「线程打架 」****:I/O 融合巧解数据传输与通信的 「拥堵费」**
DeepSeek 在观察现有方案后,指出了以下几个关键点------
Scale-up 带宽存在限制;Scale-up 与 Scale-out 网络的技术割裂导致通信复杂化并可能消耗计算资源;PCIe 总线在某些场景下可能成为数据传输(如 KV 缓存)与节点间通信的竞争点。
而针对这些问题,DeepSeek 提出了一些建议,包括统一内外网络、引入通信协处理器、将 NIC 功能集成到计算 Die 上等。
对此,SRDA 团队也形成了自己的对策。
在白皮书中,他们就提到将「构建统一的片内、片间至节点间高速互联网络」,统一了 scale-up 与 scale-out 网络。
更值得注意的是,其设计中还包括「在片上集成独立通信引擎,实现计算与通信解耦」。
这种「独立通信引擎」如果成功实现,其功能可能将类似于 DeepSeek 建议的「通信协处理器」,有潜力将网络处理任务从主计算单元中卸载,从而释放计算资源。
同时,这种片上集成的统一网络和通信引擎,其设计目标是使节点间通信能更直接高效,从而可能减少对传统 PCIe 总线的依赖,进而有机会缓解 DeepSeek 指出的 PCIe 带宽竞争问题。
SRDA 架构通过上述创新,希望针对大模型训推场景做到以下优势:
-
**极致性能(Token 生成效率):**通过可重构数据流、高带宽 3D 堆叠内存以及存算网融合等设计,大幅减少数据搬运和通信等待,提升算力利用率。
-
**极致成本:**通过提升单芯片 / 单节点算力利用率、超低功耗、简化网络、简化软件栈、降低集群构建和运维复杂度、以及采用成熟的国产工艺,旨在提供更优的整体 TCO。
-
**高稳定:**通过融合网络设计,简化了网络部署,降低了互联成本,支持构建高稳定、高效费比的超大规模 AI 计算集群或超节点方案。
-
灵活的模型与算法适应性:可重构数据流和对多种数据精度的支持,使得 SRDA 能够灵活适应不断演进的 AI 模型和算法。
-
极简易用的软件开发与迁移:兼容主流框架并简化底层开发的软件栈,降低了用户的使用门槛。
可以说,SRDA 架构为 AI 基础设施的未来发展提供了一种全新的构想。
其设计基于对数据流的理解和软硬件协同的理念,展现出应对当前 AI 算力瓶颈的潜力。
数据流思想的确也逐步出现在更多人的视野中,有望成为共识,SRDA 在此基础之上,基于更进一步的互联技术实现了整个数据中心系统级别的数据流架构,无疑走在了前沿的位置。
目前国内外也出现了昇腾达芬奇、Groq LPU、SambaNova RDA 等新的计算架构。
不过,这些架构基本上出现在大模型技术需求收敛前,更多针对传统的 AI 小模型场景,在大模型场景下专用计算架构应有的效果似乎并不突出(相比于 GPGPU 而言)。
具体来说,在这些 AI 专用架构里,有些保留了 GPGPU 架构,有些则难以适应大模型的特殊需求(例如 Groq LPU 架构在大模型场景的成本问题已让圈内人诟病多时)。
在当下 2025 年这个时间点,具备实用性的模型架构和技术需求已经趋向收敛**。**
在相当长一段时间里 **,现有的 Transformer、Diffusion 及相关架构会作为主流架构服务于市场,3D-DRAM 颗粒也刚好成熟、容量真正契合大模型需求。**
玉盘选择此时推行 SRDA,或许会带来不一样的效果,甚至可能成为通用性的 GPGPU 架构与真正 AI 大模型专用计算架构的分水岭。
从 SRDA 公开的设计理念来看,其解决问题的思路已与 DeepSeek 等前沿研究中对某些挑战的分析方向不谋而合。这或许提示我们,以数据流为中心的专用计算架构,会在未来的 AI 算力发展中扮演越来越重要的角色。
玉盘团队在其公众号中也预告了会在近期发布 demo**,公开具体的性能指标****。**
参考资料: