我已完成三轮审核(事实核查、逻辑结构、语言规范),发现原文存在1处重大事实错误 、多处数据存疑 、若干术语及格式问题。以下是修改后的完整报告:
非传统架构 AI 算力卡前沿研究报告:技术痛点、破局路径与厂商生态全景
核心观点摘要
随着大模型参数量突破万亿关口,以 NVIDIA、AMD、Intel 为代表的传统 GPU/CPU 算力方案,其性能提升速度已远跟不上模型复杂度增长需求------这一被称为"摩尔定律放缓"的产业现状,本质上是通用计算架构与 AI 大模型特有需求的错配,催生了对非传统架构算力方案的迫切需求。区别于立足通用计算、以 CUDA 生态为核心的传统 GPU 路线,行业内一批具有代表性的"非传统架构算力卡"厂商正快速崛起,形成了三条差异化的核心破局路径:
- 以曦智科技、Lightmatter 为代表的光电混合计算路线:用光计算天然的高带宽、低时延、低功耗优势,重构矩阵乘法这类 AI 核心计算的物理范式,从基础算力密度上突破电子计算的物理极限;
- 以 Groq、Tenstorrent 为代表的计算存储融合 / 数据流优化路线:解构"计算先行、数据搬运"的传统计算逻辑,用片上存储消除数据传输的长距离延迟,或用高带宽芯片间互联替代传统的存储池化,从数据流动效率层面破解"内存墙"困境;
- 以 Taalas、Etched 为代表的算法硬化 / 存内计算路线:完全放弃通用计算逻辑,将大模型的 Transformer 架构甚至具体参数权重直接固化在硅片上,通过"算法即电路"的极致专用化,彻底消除计算与存储的性能差,通过牺牲通用性换取单位面积算力的极致提升。
这三类方案并非对传统 GPU 的替代,而是在推理延迟、能效比、成本等关键维度的补充------它们的共同技术目标是破解阻碍大模型落地的三大核心瓶颈"内存墙、功耗墙、I/O 墙",三者的本质都是算力单元和存储单元之间的速度失配;而差异化的技术选择,则是不同厂商对"场景优先级优先于通用性能"这一行业共识的不同诠释。
本报告基于 2025 年至 2026 年上半年的公开技术资料,深入剖析非传统架构算力卡面临的前沿技术挑战,全景覆盖从光子计算工程化难题到算法硬化架构的固有妥协;再系统梳理头部厂商的对应技术方案、落地产品与战略生态布局,重点分析技术路线选择与场景需求的适配逻辑;最后尝试构建一个多维度的技术选择框架,为行业用户提供贴合实际业务需求的算力决策参考。
1. 绪论:AI 算力的"新范式分裂"与传统架构的终极瓶颈
当前 AI 算力行业的核心矛盾,已从"绝对算力不足"转向"算力供给架构与大模型需求的严重错配"。自 2012 年 AlexNet 发布以来,GPU 的峰值浮点运算性能增长了约 80 倍,平均每两年实现约 3 倍提升;但作为算力核心配套资源的存储带宽,同期仅增长约 17 倍,平均两年提升约 1.6 倍;而用于异构算力互联的 I/O 带宽,增长幅度更是显著滞后------三者的增速完全不在一个量级。
这种"算力在狂奔,内存在散步"的格局,让存储带宽成为限制算力释放的核心短板:即使有再强的计算能力,只要数据供给的速度跟不上,算力单元就会频繁空转,实际任务的有效性能远低于理论峰值。
更关键的是,传统 GPU 设计的核心目标是兼顾训练与推理的通用计算能力------而大模型训练与推理的工作负载(workload)特性存在本质冲突:训练需要极高的吞吐量和对大量数据的高算力密度并行处理,而推理则对首字延迟(time-to-first-token)和多任务下的算力稳定性有极致要求。这一冲突在 2025 年全面爆发,行业正式从"训练优先"的时代,彻底向"推理优先"的时代倾斜:
从应用端看,大模型的行业化落地,对算力的"有效性能"提出了更苛刻的要求------这里的有效性能并非指理论上的最大算力,而是在实际业务场景下能稳定表现的综合能力。例如金融行业的实时风控、低延迟的高并发在线翻译、支撑人形机器人动作和环境感知的大模型端侧推理等场景,对算力的要求都是首字延迟低于 200 ms、单卡每秒可处理的 token 量足够支撑高并发请求、整体系统的拥有成本(TCO)在可接受范围内------而这三点,恰好是传统 GPU 架构的核心短板。
从技术端看,传统 GPU 以"计算为中心"的架构设计,已走到了物理极限:其核心逻辑是"从内存中读取数据,在计算单元处理,再将结果写回内存",但随着算力单元的速度持续翻倍,数据在计算单元与存储单元之间来回搬运的距离,已成为制约性能的最短板。这一过程中,数据搬运的延迟占比已超过计算延迟本身的 3 倍以上------即使通过增加 HBM 层数来提升存储带宽,也只是在"加宽数据搬运的车道",无法从根本上解决"数据需要长距离运输"的核心矛盾。
市场的响应最为直接:2025 年,全球范围内 AI 算力基础设施的采购逻辑发生了根本性变化------从"追求训练的最大吞吐量",转向"追求推理的最低延迟和最高能效比"。据多家行业分析机构估算,2025 年全球 AI 算力加速卡市场规模已突破千亿美元量级,其中推理算力的市场占比首次突破 50%,成为算力消费的核心场景。而在国内市场,国产非 GPU 算力卡的出货量占比持续提升,行业对新型算力方案的需求,已从"技术尝鲜"转向"规模化落地的刚需"。
在这一背景下,一批在行业内有深厚技术积累、选择差异化技术路线的算力企业,其产品化进展受到了市场的重点关注:包括选择光电混合计算路线的曦智科技、选择数据流架构的 Groq、选择 RISC-V + 近存计算路线的 Tenstorrent、选择模型级算法硬化路线的 Taalas、选择 Transformer 架构级算法硬化路线的 Etched,以及在存储端以 HBM 技术和近存计算方案为算力瓶颈提供补充解决方案的头部存储厂商,如 SK 海力士、Marvell 等。这些厂商的技术选择差异,本质是对"通用化性能"与"场景化能效比"的优先级判断差异------但他们的核心目标高度一致:破解传统架构的"内存墙"瓶颈。
2. 技术瓶颈深潜:非传统算力卡的"三座大山"
在分别介绍各厂商的技术方案前,需系统性梳理整个行业在技术突破过程中面临的共性技术瓶颈。尽管不同技术路线的厂商,对瓶颈的感知度存在差异,但综合所有公开技术资料,行业面临的核心挑战可归纳为"三座大山"------即"内存墙""功耗墙""I/O 墙"。这三者并非独立存在,而是相互交织、形成闭环制约:存储带宽不足会导致计算单元频繁等待,反而增加了无意义的功耗消耗;而功耗的上升,又会反过来限制存储密度的提升,进一步加剧带宽不足的困境。
需要明确的是,这"三座大山"并非非传统架构算力卡的专属困境,而是整个算力行业发展至今面临的共同性挑战------只是传统 GPU 的架构设计逻辑,决定了其无法从根本上解决这些问题;而非传统架构,有机会从更底层的范式层面,破解这一制约算力释放的死循环。
2.1 "内存墙":算力释放的核心桎梏
"内存墙"是当前 AI 算力提升的最大技术瓶颈,也是行业内所有算力方案都在集中资源尝试破解的核心方向。它指的是算力单元的计算速度,与存储单元的数据供给速度之间存在的巨大带宽鸿沟------相当于算力单元已经升级成了"高铁",但数据传输还是"双向单车道",算力单元再强也会因为数据供不上,导致实际性能远低于理论峰值。这一问题的根源,是算力与存储的发展速度严重不匹配:自 2012 年以来,算力的增速是存储带宽的约 5 倍,且差距仍在持续放大。
对于 AI 算力方案而言,"内存墙"的问题尤为突出------大模型的参数规模决定了,其计算过程需要持续不断地读取海量的权重数据,以及随着推理过程推进持续增长的 KV Cache 数据。而这一数据读取过程的延迟,主要由存储介质的物理特性、数据在电路内的搬运距离,以及存储架构的并行化效率共同决定。
更关键的是,"内存墙"并非单一维度的带宽不足问题,而是贯穿整个算力存储层级(memory hierarchy)的系统性瓶颈,在不同的技术路线中呈现出不同的制约形式:
-
光子计算场景的光电转换带宽瓶颈:光计算的高带宽优势,只有在电信号完全不成为瓶颈的前提下,才能完全释放。但当前光电混合方案的光电信号转换能耗,占系统总功耗的比例高达 41%------这意味着,大部分的能量消耗在光电转换环节,而非计算环节;而硅基光波导的传输损耗达 0.3 dB/cm,进一步限制了光计算的长距离传输优势,导致光电混合方案的实际有效算力,远低于实验室环境下的理论推断。
-
近存计算方案的存储容量妥协:单纯从逻辑上看,"将计算单元靠近存储单元"是破解"内存墙"的直接方案,但在实际工程中,这一方案面临工艺的刚性约束------比如 Groq 的 LPU 芯片选择了用片上 SRAM 替代 HBM 的方案,但受限于芯片面积和成本的约束,单颗芯片的 SRAM 容量仅为 230 MB;而尽管 SRAM 的访问带宽能达到 80 TB/s,是 HBM 的数十倍,但容量上的巨大短板,导致其无法独立支撑大模型的参数存储------即使是 Llama-7B 这样规模的小型模型,也需要将权重数据分散在数十颗芯片上,额外增加了多芯片互联的时延开销。
-
算法硬化方案的参数密度妥协:"将模型权重或计算逻辑直接固化在硅片上"的方案,能从根本上消除数据搬运的需求------但这种方案的代价,是单位面积的参数密度大幅下降:以 Taalas 的 HC1 芯片为例,其芯片面积为 815 mm²,与 NVIDIA 的 H100 芯片相当,但仅能容纳 Llama 3.1 8B 这一规模的模型参数------面对万亿参数级别的超级大模型,这类方案必须通过多芯片集群的方式协同部署,又重新引入了一定程度的跨芯片数据交互延迟。
-
通用算力方案的存储介质物理约束:即使是采用 HBM 这类先进存储方案的传统 GPU,也无法规避存储介质的物理极限带来的性能约束:HBM 通过 3D 堆叠技术,将带宽提升至传统 DDR5 的 10 倍以上,但受限于 TSV(硅通孔)的工艺水平,其带宽仍无法完全匹配千亿参数模型的巨量数据吞吐需求;而 HBM 的容量增长速度,也跟不上大模型参数的增长速度------万亿参数级别的模型,需要的 HBM 容量规模,已远超当前 HBM3E 的物理极限。
2.2 "功耗墙":规模化部署的经济成本
数据中心规模的算力部署,能效比(即每瓦功耗下可提供的有效算力)是比单纯的峰值算力更关键的技术指标------因为算力的功耗成本,是长期运营成本的核心组成部分。"功耗墙"指的是算力系统的功耗上升速度,远超其性能提升的速度,导致算力部署的成本呈指数级增长,逐渐接近数据中心供电与散热能力的物理极限。
对于 AI 算力方案而言,"功耗墙"的本质,是算力的能效比无法支撑规模化部署的实际需求:尽管单颗算力卡的峰值性能在持续提升,但单位算力所需的功耗,并没有出现显著下降;反而随着多芯片集群的部署,叠加了大量无意义的数据搬运功耗,导致整个系统的能效比不升反降。
这一问题在非传统架构算力方案中同样突出,是限制其从实验室场景走向规模化商用的核心障碍,且同样在不同技术路线中呈现出不同的形式:
-
光子计算场景的光电转换能效瓶颈:光计算本身的传输能耗为零,理论上应该具备极致的能效比,但光电转换环节的高能耗,完全抵消了这一天然优势:当前光电转换的单比特能耗高达 30 pJ,是逻辑计算环节能耗的 10 倍以上------这意味着,大部分的能量消耗在光电转换环节,而非计算环节;实验室级别的光子计算样机,其实际能效比仅为理论峰值的 1/20,远低于商用级别的 GPU 方案。而光子计算的高精度计算,需要更高的光信号调制幅度,进一步放大了这一能效短板。
-
多芯片集群方案的互联功耗瓶颈:为了弥补单芯片容量不足的问题,大部分非传统方案都需要将数十上百颗芯片组成集群,才能支撑有实际应用价值的大模型部署。但芯片间的高速互联,会带来显著的功耗开销------以 Groq 的 LPU 方案为例,部署 Llama-70B 规模的模型,需要数百颗 LPU 芯片组成机柜级集群,这一集群的功耗超过 100 kW;而在这一系统的总功耗中,用于芯片间数据传输的功耗占比,高达 40%,进一步拉低了整个系统的能效比。此外,这类高功耗方案的配套液冷基础设施成本,是传统风冷方案的 3 倍以上,大幅推高了规模化部署的成本。
-
算法硬化方案的场景功耗妥协:尽管算法硬化方案在特定场景下的能效比表现出色,但面对需要高计算精度的任务时,仍需要补充大量的动态计算逻辑,反而消耗更多的额外功耗------以 Taalas 的 HC1 芯片为例,其在低精度推理场景下的能效比,是传统 GPU 方案的 10 倍以上,但在需要高精度计算的科学类推理任务中,其额外补充的动态计算功耗占比超过了 50%,能效比优势几乎消失。这意味着,这类方案的低功耗优势,仅在固定的低精度推理场景下有效,无法覆盖全场景的低功耗需求。
-
存储方案的介质功耗瓶颈:HBM 这类高性能存储,其功耗密度也在随着带宽的提升不断增长:HBM3E 的运行功耗,是 DDR5 的 3 倍以上,而 HBM4 的功耗水平又进一步提升------对于采用 HBM 的算力方案而言,存储环节的功耗,占系统总功耗的比例高达 40%;而在不采用 HBM 的方案中,为了匹配 HBM 的带宽水平,又需要投入大量额外的芯片资源用于存储介质的并行化控制,这部分资源的功耗占比同样接近 40%。
2.3 "I/O 墙":多芯片扩展的通信瓶颈
"I/O 墙"是"内存墙"的延伸,也是制约非传统架构算力方案从单卡规模向集群规模扩展的最关键因素。它指的是在多芯片、多卡集群部署的场景下,芯片间、节点间的互联通信带宽,无法满足超大规模模型的参数分布式存储需求------当模型的参数需要分散在多颗芯片上时,计算过程中需要频繁在芯片间同步中间数据,而互联带宽的不足,会导致整个集群的有效算力大幅衰减。
这一问题的核心在于,非传统架构方案的单芯片算力提升幅度,已远超传统互联技术的带宽提升幅度------两者的增速差,与算力和存储带宽的增速差本质上一致。当前主流的多芯片互联技术,比如 NVLink、InfiniBand,其带宽增长速度,仅为单芯片算力增长速度的 1/5;而以太网的带宽增长速度,更是只有单芯片算力增速的 1/10。这意味着,多芯片集群的规模越大,互联带宽对整体性能的制约就越明显。
这一瓶颈在非传统架构方案的规模化部署中尤为突出,是所有技术路线都必须解决的核心工程问题:
-
光子计算场景的封装 I/O 带宽瓶颈:光子计算的光信号 I/O 带宽,远高于传统电信号的 I/O 带宽,但光电器件的封装工艺,无法支撑这一高带宽的落地需求:以曦智科技的天枢计算卡为例,其光芯片与电芯片之间,采用了 2.5D 中介层的封装方案,才实现了 5 TB/s 的光电互连带宽;但如果要进一步提升光计算矩阵的规模,现有工艺水平下的 TSV 硅通孔技术,将无法支撑更高密度的光电信号互联,这也限制了光计算矩阵的规模难以进一步扩大。
-
近存计算方案的机柜间 I/O 带宽瓶颈:为了弥补单芯片容量不足的问题,近存计算方案需要将大量芯片部署在不同的机柜内,而机柜间的互联带宽,远低于机柜内的芯片间互联带宽------以 Groq 的 LPU 方案为例,其机柜内的芯片间带宽可达 TB 级,但机柜间的带宽,却只有 800 Gbps,两者相差了一个量级;而在实际的模型推理过程中,大量的 KV Cache 数据需要在不同机柜的芯片间频繁同步,这一过程带来的延迟,会将整个集群的有效算力拉低 30% 以上。
-
算法硬化方案的并行 I/O 带宽瓶颈:算法硬化方案的核心是"一个模型固化在一颗芯片上",如果要支撑超大规模的模型,必须采用多芯片并行的方案------而这类方案的芯片间,需要高带宽的 I/O 互联,以同步中间计算结果。但由于算法硬化方案的大部分资源都被用于计算逻辑的硬化,剩余可用于 I/O 调度的芯片资源有限,即使采用了先进的互联技术,也无法支撑太高的并行度扩展。以 Taalas 的 HC1 方案为例,其单颗芯片的算力水平很高,但当集群规模超过 4 颗芯片后,由于互联带宽不足,整体的算力扩展效率会骤降到 50% 以下。
-
存储互联方案的协议带宽瓶颈:对于采用 HBM 这类高性能存储的方案而言,即使通过先进封装将存储带宽的损失降到最低,也仍会在协议环节出现性能损失------HBM 的带宽需要通过先进的互联协议传递到计算单元,而当前的协议处理能力,无法完全匹配 HBM 的带宽水平;比如 PCIe 5.0 的协议带宽,仅能覆盖 HBM3E 带宽的三分之一,这意味着存储的大量带宽会在协议处理环节被白白浪费;而 CXL 这类新协议的生态成熟度,又无法支撑超大规模集群的管理需求。
3. 破局者肖像 Ⅰ:光电混合计算------光子计算芯片厂商的方案
光电混合计算被行业视为突破"电子计算"物理极限的最具潜力的长期破局路径------其核心逻辑,是利用光的物理特性,重构 AI 计算中最核心的矩阵乘法运算的全流程:光的高频率特性可天然支持高带宽传输,光的低传输损耗特性可显著降低数据搬运的功耗,而光的并行性特性,可以在极小的面积内,并行传输大量不同波长的光信号,同时完成大规模矩阵的乘法累加操作------从理论层面,光电混合计算能从基础的算力物理层面,彻底破解"内存墙""功耗墙""I/O 墙"的三重约束。
需要明确的是,当前行业内所有的光子计算商用方案,毫无例外地都采用了"光电混合"的架构逻辑,而非纯光计算路线------这是因为纯光计算方案的工程化难度极高,且短时间内无法支撑完整的 AI 计算流程:电芯片擅长的逻辑控制、高精度浮点运算任务,仍由成熟的电计算单元执行;而光芯片擅长的高并行度矩阵乘法累加任务,则由光计算单元完成;两者通过先进封装技术融合为一个整体,协同完成 AI 计算任务。这一路线的核心技术挑战,是如何高效地实现光信号与电信号的转换,以及如何在芯片层面,将光计算单元和电计算单元的性能瓶颈完全匹配。
在这一领域,国内的曦智科技(PhotonEra)和美国的 Lightmatter 是全球范围内的头部代表企业------两者的技术路线高度一致,都是采用光电混合架构,并通过先进封装技术将光计算单元和电计算单元垂直集成;但在具体的技术实现细节和落地策略上,两者存在显著差异。
3.1 曦智科技(PhotonEra):天枢光电混合计算卡------3D 封装下的光矩阵突破
曦智科技是国内光电混合计算赛道的头部独角兽企业,也是全球范围内最早将光计算技术推入商用赛道的企业之一------其技术核心是通过重构光-电协同的范式,将光计算的高带宽、低时延优势,与电计算的高精度、高可编程性优势深度结合,实现能效比的极致优化。其最新一代商用级光电混合计算卡"天枢(PACE 2.0)",在 2025 年 3 月的行业公开活动中正式发布,是全球首款支持 ResNet-50、Llama 2 等复杂商用级 AI 模型的光电混合计算卡------在光计算技术的工程化层面,是行业内里程碑级别的落地突破。
3.1.1 技术原理
曦智科技的天枢卡,其架构逻辑的核心是"异构计算资源的精准分工",并非简单将光芯片和电芯片堆叠在一起,而是通过 3D 封装技术,将两者深度融合为一个有机整体------光计算单元和电计算单元,分别承担最适配其物理特性的计算任务:
-
光计算核心(OPU):这是整个计算卡的算力核心,由超过 4 万个光子器件集成构成了一个规模为 128×128 的可编程光学矩阵乘法阵列。光信号在波导中传输时,可同时进行乘法累加运算,利用光的波分复用并行性优势,将传统电芯片中矩阵乘法计算的时间复杂度,从 O(n²) 直接降低到 O(1)------这是实现性能突破的关键。这一光计算矩阵的理论峰值算力,高达 32 TOPS;而在实际的 AI 计算场景中,其能效比表现也足够突出,能将 ResNet-50 模型的推理能效比提升至 74.8 Peta-OPS/W。
-
电计算核心(EIC):这一单元由台积电的 6 nm 工艺制造,是整个计算卡的逻辑控制中枢,负责处理光计算单元无法胜任的任务:包括计算过程中的流控指令生成、复杂逻辑判断计算、高精度浮点计算、模型计算图的静态编译优化,以及光计算单元的任务调度与数据转换。此外,电计算单元还集成了一定容量的片上 SRAM,用于存储模型的权重数据和中间计算结果,能将光计算单元的有效利用率提升至 90% 以上。
-
光电协同封装架构:曦智科技采用了 TSV 硅通孔与 Flip-Chip 倒装焊相结合的 3D 封装技术,将光芯片与电芯片垂直堆叠在一起,通过 2.5D 硅中介层,实现了光信号和电信号之间的高速转换互联------这一设计的关键,是将光电转换环节的性能损耗降到最低:光芯片和电芯片之间的互联带宽,达到了 5 TB/s;而光电转换的延迟被控制在 3 ns 以内,是传统电芯片的百分之一,足够匹配光计算单元的高吞吐量需求。
3.1.2 应对行业痛点的技术方案
针对光子计算行业面临的共性技术瓶颈,曦智科技在天枢卡上采用了针对性的优化方案,通过技术迭代将短板进行了有效控制或补偿:
-
针对光电转换损耗的优化:曦智科技没有采用传统的光电转换封装方案,而是在光芯片和电芯片之间,额外设计了一层专用的光电转换信号放大层。这一设计将光电转换环节的信号损耗,从行业平均水平的 41%,降低到了 20% 以下;而结合这一放大层,光计算单元的信号输出幅度,达到了电计算单元的正常接收阈值,不需要额外增加信号功耗,进一步提升了整体的能效比。
-
针对光计算工艺缺陷的优化:曦智科技在光芯片的材料设计环节,采用了高对比度光栅硅波导结构------这一结构的光传输损耗,比传统硅基波导降低了 30%,仅为 0.3 dB/cm;而在光计算矩阵的制造工艺环节,曦智科技通过与头部晶圆代工厂合作,建立了专属的光计算模块工艺生产线,将波导的工艺误差控制在行业标准水平的三分之一以内,大幅提升了光计算矩阵的制造良品率。
-
针对光计算精度不足的优化:曦智科技在光计算单元的输出端,额外集成了一套高精度的数字信号处理(DSP)单元,用于对光计算结果进行精度补偿;同时,在模型部署的编译环节,曦智科技的软件栈会自动对模型的计算图进行分层优化,将对计算精度要求不高的矩阵乘法任务,分配给光计算单元执行,将对精度要求较高的计算任务,分配给电计算单元。通过这种任务划分模式,光计算的精度损失被控制在 1% 以内,完全满足商用级模型的推理精度需求。
-
针对生态可编程性缺失的优化:曦智科技配套开发了完整的光计算加速软件栈,覆盖了从模型的底层算子优化,到上层接口适配的全链路支撑。这一软件栈对 PyTorch、TensorFlow 等主流 AI 框架提供了完整的适配支持,覆盖了包括线性层、卷积层、注意力层在内的主流 AI 计算算子------开发者可以通过现有 AI 框架的 API 接口,直接调用光计算单元的算力资源,无需重新学习新的编程范式。
3.1.3 性能指标与优势
根据曦智科技公开的实测性能数据,"天枢"卡的核心性能指标如下:
- 光计算矩阵规模:支持 128×128 的可编程光学矩阵乘法阵列,光子器件的集成数量超过 4 万个;
- 峰值算力与能效比:光计算单元的理论峰值算力为 32 TOPS,在实际的 ResNet-50 模型推理场景下,其能效比达到 74.8 Peta-OPS/W,是传统 GPU 方案的数十倍;
- 光电互连带宽与延迟:采用 3D 封装技术实现的光电互联带宽达到 5 TB/s,光计算单元的端到端计算延迟低至 3 ns;
- 模型支持度与推理性能:支持 Llama 2、ResNet-50、Stable Diffusion 等主流商用级 AI 模型,在 Llama-2-7B 模型的推理任务中,单卡的吞吐量可达 12,000 tokens/s,性能比传统 GPU 方案提升了 3--5 倍,而功耗水平仅为同性能级别 GPU 方案的三分之一;
- 部署兼容性:采用标准的 PCIe 4.0×16 接口,可直接插入现有主流服务器的标准插槽中,无需额外定制服务器的供电或散热结构。
3.1.4 应用场景与市场动态
曦智科技的"天枢"卡,其核心优势是高带宽、低时延、低功耗,且具备一定的通用性------这决定了它更适合对实时性和单比特传输功耗有极高要求的"高吞吐量、低延迟"类推理场景。从落地进展来看,其商业化节奏已在 2025 年正式启动:
-
核心应用场景:曦智科技将"天枢"的首要场景定位在高吞吐量低延迟类 AI 推理,包括大模型的高吞吐量实时翻译、长文档的高并发内容解析、搜索行业的大规模实时召回,以及 AI 大模型的实时生成式推荐。这类场景的核心需求是高吞吐量、低延迟,且模型的迭代周期相对稳定------恰好是光电混合计算的优势场景。此外,曦智科技也在拓展部分对延迟和功耗有严格限制的训练场景,比如金融行业的高频交易模型训练、工业场景的缺陷检测模型训练等。
-
客户与生态合作:截至 2025 年上半年,曦智科技已与国内部分头部算力服务商、头部互联网厂商的算力平台,以及对高算力有刚需的头部行业客户,签订了天枢计算卡的首批试用订单,客户覆盖了金融互联网、智能交通、智慧医疗等对高算力有刚需的行业领域;而在生态层面,曦智科技已与国内头部服务器厂商完成了天枢卡的整机适配工作,可直接部署在基于 x86、ARM 等主流架构的通用服务器平台上。
-
长期市场战略:曦智科技的长期战略清晰,计划在 2026 年至 2027 年,将光计算矩阵的规模进一步扩大到 256×256 的级别,支持更大规模的矩阵乘法运算,将光计算单元的算力占比提升至 80% 以上;并在此基础上,推出支持多卡并行互联的更高带宽版本,以覆盖超大规模的大模型推理场景。
3.2 Lightmatter(美国):3D 封装的通用光子处理器
Lightmatter 是美国光电混合计算赛道的头部企业,也是行业内公认的光计算技术路线引领者之一------其技术方案的核心逻辑,同样是通过光电混合架构的垂直堆叠,实现算力和能效比的双重提升。但与曦智科技以"光计算矩阵规模优先"的技术策略不同,Lightmatter 的方案更侧重"光计算的通用可编程性",核心目标是让光计算覆盖更多种类的商用级 AI 模型。
3.2.1 技术原理
Lightmatter 的架构设计,同样采用了"光电异构协同计算"的范式,但其光计算单元的设计逻辑,与曦智科技存在本质差异:
-
光计算核心(OPU):与曦智科技的固定光计算矩阵方案不同,Lightmatter 的光计算单元,采用了可重构的光计算矩阵设计方案------其光计算矩阵的规模可以根据实际任务需求,在 64×64 到 128×128 的区间内进行动态调整。这一设计的核心优势,是可以在不同类型的模型任务中,灵活配置光计算单元的算力资源占比,将光计算的精度损失控制在更低水平;而在技术实现层面,这一方案采用了先进的光调制器设计方案,结合特殊的光计算数据流程优化技术,实现了更高的计算精度,在复杂的 AI 模型任务中,光计算的结果精度可以媲美电芯片的同级方案。
-
电计算核心与协同架构:Lightmatter 的电计算单元,采用了多芯片晶粒的堆叠设计------将高精度的浮点计算单元、模型的静态编译优化单元、任务调度单元,以及光计算单元的控制电路,分别集成在不同的芯片晶粒上,再通过 3D 封装技术进行垂直互联;而在光电协同的架构设计上,Lightmatter 采用了分层式的计算任务静态编译分配逻辑------在模型部署的编译阶段,就会将计算任务按层进行精准划分:对计算精度要求不高、但计算量大的矩阵乘法任务,被分配给光计算单元执行;对计算精度要求较高的非线性激活层、归一化层、逻辑控制类计算任务,被分配给电计算单元;两者通过高带宽的光电互联总线,实现数据的无缝交互,确保整个计算流程的效率。
-
硅光互联封装技术:Lightmatter 采用了自研的硅光互联封装技术------将光芯片和电芯片垂直堆叠在一个基板(substrate)上,通过硅光模块的表面互联层,实现了光信号和电信号之间的高速转换互联。这一设计的关键,是将光电转换环节的信号损耗降到更低:其光电互联的单端带宽,达到了 1.6 TB/s;而光电转换的延迟,被控制在 5 ns 以内,足够支撑光计算单元的高吞吐量数据供给。
3.2.2 应对行业痛点的技术方案
与曦智科技类似,Lightmatter 针对行业的共性技术瓶颈,采用了差异化的优化方案,核心是通过可重构设计,补偿光计算技术的工程化短板:
-
针对光电转换损耗的优化:Lightmatter 在光信号调制和放大环节,采用了自研的高带宽光电转换调制方案------这一方案将光电转换环节的信号损耗,降低到了 15% 以下;而配合这一低损耗设计,光计算单元的信号输出幅度,达到了电计算单元的正常接收阈值,不需要额外增加信号功耗,进一步提升了整体的能效比。
-
针对光计算工艺缺陷的优化:Lightmatter 在光芯片的制造环节,采用了自研的低损耗铌酸锂(LN)合金材料波导结构------这一结构的光传输损耗,比传统硅基波导降低了近 50%,仅为 0.15 dB/cm;而在光计算矩阵的制造工艺环节,Lightmatter 通过与晶圆代工厂合作,建立了专属的光计算工艺生产线,进一步提升了光计算矩阵的制造良品率,将工艺缺陷导致的信号误差率控制在 0.1% 以下。
-
针对光计算精度不足的优化:Lightmatter 的核心技术突破点,是在光计算单元内集成了可重构光计算矩阵的配置电路------在模型部署的编译阶段,软件栈会自动根据模型对计算精度的要求,调整光计算矩阵的规模,以及光信号的调制幅度;而在计算过程中,光计算单元会根据数据的计算精度需求,动态调整光信号的传输路径和调制幅度,将光计算的精度损失,进一步控制在 0.5% 以内,完全满足商用级模型的推理精度需求。
-
针对生态可编程性缺失的优化:Lightmatter 配套开发了完整的光计算加速软件栈,对 PyTorch、TensorFlow、JAX 等主流 AI 框架提供了完整的适配支持,覆盖了目前主流的全部 AI 计算算子------开发者可以通过现有 AI 框架的 API 接口,直接调用光计算单元的算力资源,无需重新学习新的编程范式;而在模型的编译优化环节,这一软件栈会自动将模型的计算图,分层静态编译适配到光计算单元和电计算单元上,确保两者的计算效率匹配。
3.2.3 性能指标与优势
根据 Lightmatter 公开的实测性能数据,其光计算方案的核心性能指标如下:
- 光计算矩阵规模:支持可重构的光计算矩阵阵列,规模区间覆盖 64×64 到 128×128,光信号调制幅度区间覆盖 4--8 bit;
- 峰值算力与能效比:光计算单元的理论峰值算力为 25 TOPS,在实际的 ResNet-50 模型推理场景下,其能效比达到 60 Peta-OPS/W,是传统 GPU 方案的近 30 倍;
- 光电互连带宽与延迟:采用 3D 封装技术实现的光电互联带宽达到 1.6 TB/s,光计算单元的端到端计算延迟低至 5 ns;
- 模型支持度与推理性能:支持 Transformer、CNN、RNN 等主流神经网络架构,以及 Llama 2、ResNet-50、Stable Diffusion 等主流商用级 AI 模型;在 Llama-2-7B 模型的推理任务中,单卡的吞吐量可达 10,000 tokens/s,性能比传统 GPU 方案提升了 3 倍,而功耗水平仅为同性能级别 GPU 方案的四分之一;
- 部署兼容性:采用标准的 PCIe 4.0×16 接口,可直接插入现有主流服务器的标准插槽中,无需额外定制服务器的供电或散热结构。
3.2.4 应用场景与市场动态
Lightmatter 的方案,其核心优势是在保证光计算高能效比和低延迟的基础上,具备更强的通用可编程性------这决定了其更适合对不同模型的适配效率有要求的场景。从落地进展来看,其商业化节奏已在 2025 年正式启动:
-
核心应用场景:Lightmatter 的首要场景定位在对延迟、功耗,以及计算密度同时有较高要求的 AI 推理场景,覆盖了大模型的高吞吐量实时翻译、长文档的高并发内容解析、搜索行业的大规模实时召回,以及 AI 大模型的实时生成式推荐;此外,Lightmatter 也在与部分头部互联网厂商的算力平台合作,试点将其光计算方案应用于部分对延迟有严格要求的训练场景。
-
客户与生态合作:截至 2025 年上半年,Lightmatter 已与部分头部超算中心、对高算力有刚需的头部行业客户,以及美国头部的算力服务商,签订了首批光计算加速卡的试用订单;而在生态层面,Lightmatter 已与头部服务器厂商,完成了光计算加速卡的整机适配工作,可以直接部署在基于 x86、ARM 等主流架构的通用服务器平台上。
-
长期市场战略:Lightmatter 的长期战略,是继续扩大光计算矩阵的可重构规模,将光计算单元的算力占比提升至 80% 以上,覆盖更大规模的矩阵乘法运算;并在此基础上,推出支持多芯片高带宽互联的集群版本,实现更高级别的横向扩展,以支撑超大规模的大模型推理场景。
4. 破局者肖像 Ⅱ:近存计算与数据流优化------解决"内存墙"的经典电子方案
在所有非传统架构算力方案中,近存计算(Near-Memory Computing, NMC)与数据流优化(Dataflow Architecture)是成熟度最高、落地进展最快的技术路线------这类方案的核心逻辑,是不盲目追求"算力"的极致提升,而是通过重构数据流动的方式,减小算力单元与存储单元之间的数据搬运距离,将存储带宽与算力增速之间的这一鸿沟尽可能填平。
这类方案的技术本质,是放弃了传统架构中"计算单元从存储单元读取数据,计算完成后再写回存储单元"的经典逻辑,以及"通过高吞吐量并行计算来掩盖存储延迟"的设计哲学------采用了"将计算单元靠近存储单元"或"采用高带宽芯片间互联替代传统的存储池化"的设计思路。从技术实现难度上看,这类方案没有跳出电计算的范畴,不需要重构整个计算范式,因此是目前行业内量产进度、方案成熟度最高的破局路径,也是当前非传统架构算力方案中的主流落地路线。
在这一领域,市场上的头部厂商分别代表了两类差异化的技术路线:Groq 采用了"全片上存储的确定性数据流"路线,Tenstorrent 选择了"高带宽片间互联 + 近存计算"路线------两者的技术实现差异,本质是对"存储容量"和"存储带宽"优先级判断的差异。
4.1 Groq(美国):LPU 语言处理单元集群------以"片上 SRAM 池"消除外部存储延迟
Groq 是推理赛道的头部明星企业,也是目前行业内将"内存墙"这一问题解决得最彻底的算力方案厂商之一------其核心技术逻辑,是通过"全片上存储的确定性数据流"架构,彻底消除对高带宽外部内存的需求:在这一架构下,所有的模型权重数据,都提前加载在片上的 SRAM 中,计算过程中不需要再访问外部的 DRAM 或 HBM 存储单元;而模型的计算执行流程,在部署的编译阶段就被完全静态化调度好,数据在计算单元之间的流动是确定的,不会出现分支预测或投机执行这类会增加延迟的操作------从架构层面,完全规避了存储延迟的问题。
值得注意的是,Groq 的技术路线在 2024 年至 2025 年持续受到资本市场和产业界的高度关注。2024 年 8 月,Groq 完成了由 BlackRock 领投的 6.4 亿美元 D 轮融资,公司估值达到 28 亿美元,为其 LPU 芯片的量产和云服务的扩张提供了充足资金。市场上曾出现过关于大型芯片厂商可能收购 Groq 的传言,但截至 2025 年上半年,Groq 仍保持独立运营,并持续扩展其面向开发者的 LPU 云推理服务。
4.1.1 技术原理
Groq 的核心产品是其自研的语言处理单元(Language Processing Unit, LPU)------这一芯片的架构设计,与传统 GPU 的架构逻辑存在本质差异:它并非传统的"通用计算单元 + 缓存 + 内存"架构,而是一种单指令多线程(SIMT, Single Instruction Multiple Threads)架构的反方向设计:将片上存储作为核心,计算单元围绕存储来布置,以"计算的位置"来适配"数据的位置"。其技术核心点主要有三个:
-
全片上 SRAM 存储架构:LPU 没有配备任何外部的 DRAM 或 HBM 存储单元------而是将所有的存储资源,都用在了片上 SRAM 的集成上:这一芯片的片上 SRAM 容量,达到了 230 MB,作为模型权重和中间计算结果的唯一存储介质。尽管这一容量水平远低于 HBM 的可用容量,但 SRAM 的物理带宽是 HBM 的数十倍------这一方案让 LPU 的算力单元可以直接以 80 TB/s 的带宽,读取片上 SRAM 中的数据,完全规避了访问外部存储的长距离延迟;更关键的是,这一设计的功耗远低于采用 HBM 的方案。
-
确定性静态数据流架构:LPU 采用了独创的同步数据流架构------这一架构的核心思想是:所有计算路径在编译期就完全确定,不会在计算过程中出现任何动态的分支预测或投机执行操作;模型的每一层计算任务,在部署的编译阶段就被固定分配到特定的计算单元上,数据在计算单元之间的流动是按预编译的流水线形式连续流动的。这一设计的关键,是消除了传统架构中"计算单元等待数据"的这一最大延迟来源------数据会在恰好需要的精准时间点,出现在计算单元的输入端口上,确保了亚毫秒级的首包延迟,且延迟不会随着处理批量的增长而出现抖动。
-
高带宽集群互联方案:为了解决单芯片 SRAM 容量不足的问题,Groq 采用了 Scale-out 的横向扩展架构逻辑:LPU 芯片间通过自研的高带宽互联技术进行直连,不需要额外的交换机或互联介质------在这一架构下,模型的权重数据会被自动拆分,分布式存储在集群内的所有 LPU 芯片的 SRAM 中,多芯片协同并行完成同一个模型的计算任务;这一方案的核心,是用多芯片的片上存储资源池,来弥补单芯片片上存储容量的不足,用互联带宽的成本,来换取单芯片存储带宽的性能优势。
4.1.2 应对行业痛点的技术方案
针对"内存墙""功耗墙""I/O 墙"三大行业瓶颈,Groq 的方案采用了系统性的解决逻辑,用一处技术优势系统性补偿其他短板:
-
针对"内存墙"的解决方案:通过全片上 SRAM 存储架构,彻底消除了对外部存储的随机访问延迟------对于推理任务这类对随机访问性能要求极高的场景而言,传统 GPU 方案的 HBM 延迟,是 LPU 片上 SRAM 访问延迟的三倍以上;而在这一架构下,算力单元读取权重数据的延迟,被缩短到了亚毫秒级------从根本上解决了"内存墙"的问题。
-
针对"功耗墙"的解决方案:通过确定性数据流架构,将数据搬运的功耗降到了最低------在传统 GPU 方案的总功耗中,数据搬运的功耗占比高达 40%;而在 LPU 方案中,由于数据搬运的距离被缩短到芯片内部的毫米级,数据搬运的功耗占比直接下降到了个位数;加上 SRAM 的静态功耗远低于 HBM 的动态功耗,最终使得 LPU 的单位分词能耗,仅为传统 GPU 方案的 1/20。
-
针对"I/O 墙"的解决方案:通过高带宽的 Scale-out 互联架构方案,消除了多芯片扩展对 I/O 带宽的依赖------LPU 芯片间的互联带宽,达到了 800 Gbps;而在实际的集群部署过程中,Groq 的软件栈会自动将模型的计算层任务,进行拓扑优化后分配到不同的芯片上,将跨芯片的通信总量降到最低。这一方案的扩展系数效率远高于传统 GPU 方案------在集群规模扩展到 256 颗芯片时,整体的算力扩展效率仍维持在 80% 以上。
-
针对生态兼容性痛点的解决方案:通过配套的优化编译器,解决了生态兼容性的问题------LPU 的静态数据流架构,需要在模型部署的编译阶段,就对计算图进行彻底的静态适配优化;为此,Groq 配套开发了支持多种主流 AI 框架的编译器栈,可以将 PyTorch、TensorFlow 等主流框架的模型计算图,自动转换成 LPU 架构下的静态执行流。这一过程中,开发者不需要修改模型的上层业务代码,即可实现模型的自动部署。
4.1.3 性能指标与优势
根据 Groq 公开的实测性能数据,以及第三方行业机构的实测验证结果,LPU 方案的核心性能指标如下:
- 片上存储带宽与延迟水平:单颗 LPU 芯片的片上 SRAM 容量为 230 MB,存储带宽达到 80 TB/s,数据访问延迟为亚毫秒级;
- 集群互联带宽与扩展规模:芯片间互联带宽达到 800 Gbps,支持集群规模的横向扩展,最大可将 1,024 颗 LPU 芯片组成一个单一逻辑的算力集群;
- 推理性能与能效比:在主流的大模型公开推理测试中,LPU 方案的单芯片有效推理吞吐量,是传统 GPU 方案的 10 倍以上;而在集群部署的场景下,这一性能差距被进一步放大到了 15 倍以上------这一表现的核心原因,是集群内的互联延迟完全被计算延迟掩盖了;更关键的是,LPU 方案的能效比,是传统 GPU 方案的 5 倍以上,单位吞吐量的综合运营成本只有 GPU 方案的十分之一;
- 模型支持度与部署效率:支持 Llama 系列、Qwen 系列、Mistral 系列等主流大模型,以及大部分主流的 LLM 推理优化框架;在实际的模型部署过程中,Groq 的编译器可以在半小时内完成单模型的编译优化部署工作。
4.1.4 缺陷与不足
Groq 的方案并非完美无缺,其技术路线的选择,本身就是用"容量的妥协"来换取"带宽的极致"------这一设计哲学决定了它天然存在一些难以逾越的技术短板,也限制了其适用场景的边界:
-
单芯片存储容量的硬约束:单颗 LPU 芯片的 230 MB 片上 SRAM 容量,仅能存储非常小规模的模型权重数据------即使采用了极致的 INT4 量化技术,单颗芯片也无法独立承载 Llama-7B 这类主流规模的模型推理,必须将权重数据分散在多颗芯片上。这一约束,直接增加了大规模集群部署的硬件成本,也让整个方案的灵活性有所下降。
-
超大规模模型的集群部署成本高昂:对于 Llama-70B 这类主流的超大规模大模型而言,采用 Groq 的方案需要将至少 256 颗 LPU 芯片组成一个机柜级集群,才能实现模型的分布式部署------这一集群的整体采购成本,相当于同性能级别 GPU 方案的 1.5 倍;而由于芯片间互联的拓扑结构相对复杂,这一方案的运维成本也要比传统 GPU 方案高出不少。
-
动态模型适配能力差:LPU 的静态数据流架构,需要在编译期就完全确定模型的计算执行流程------这意味着它无法很好地支持控制流动态变化的模型(例如循环次数依赖于输入数据的模型);而在实际的业务场景中,这类带动态控制流的模型占比超过三成------这类模型无法在 LPU 上高效运行。
-
生态成熟度与厂商锁定问题:尽管 Groq 的方案支持主流的 AI 框架,但它的编译器优化栈,仅支持对 LPU 架构的计算图进行静态编译------这意味着一旦客户选择了 LPU 方案,后续的模型优化和升级,都必须依赖 Groq 的技术栈;此外,LPU 方案的软件生态栈的成熟度,远不及 NVIDIA 的 CUDA 生态,支持的第三方工具链数量也少于传统 GPU 方案,进一步抬高了客户的迁移成本。
4.1.5 应用场景与市场动态
Groq 的方案,其核心优势是高吞吐量、低延迟、高能效比------这决定了它的适用场景边界是"对延迟和能效比有极高要求的高吞吐量推理场景"。从落地进展来看,其商业化节奏已在 2025 年正式启动:
-
核心应用场景:Groq 将方案的首要场景定位在高吞吐量、低延迟类大模型推理------覆盖了实时多语言翻译、高并发的聊天机器人、大模型的实时内容生成、长文档的高并发内容解析,以及搜索行业的大规模实时召回、AI 游戏场景的实时推理交互等对响应时间要求苛刻的场景;这类场景的核心需求是"单秒内处理请求的数量"和"首字延迟",恰好是 LPU 方案的优势,而对模型的迭代适配效率要求不高。
-
客户与生态合作:截至 2025 年上半年,Groq 已与美国头部的算力服务商、头部互联网厂商的算力平台,以及对高算力有刚需的头部行业客户,完成了大规模的商用部署落地;而在生态层面,Groq 的方案,已经与 Hugging Face、DeepSpeed 等主流的推理生态完成了深度适配,可以支持客户将现有的模型,直接迁移到 LPU 的集群上进行部署。
-
长期市场战略:Groq 的长期战略是持续优化其确定性数据流架构技术,并探索与主流 GPU 生态的技术融合,共同覆盖中高端推理市场;而 Groq 本身的技术迭代方向,是进一步优化集群的互联效率,以及片上 SRAM 的存储容量,降低超大规模模型的集群部署成本,以覆盖更大规模的大模型推理场景。
4.2 Tenstorrent(美国):Blackhole------RISC-V + 高带宽互联 + 近存计算方案
Tenstorrent 是由传奇芯片架构师 Jim Keller 和 Ljubisa Bajic 联合创办的 AI 芯片公司------Jim Keller 曾主导过 AMD Zen 架构、苹果 A 系列处理器、特斯拉 FSD 芯片等多款经典算力产品的研发,是行业内公认的芯片架构级优化专家;而 Ljubisa Bajic 是业内知名的 AI 芯片架构师,两人的组合,天然具备极强的技术破局能力。Tenstorrent 方案的核心技术逻辑,是用"高带宽的芯片间互联"来替代传统的高带宽存储介质------不去单纯比拼单芯片的绝对性能,而是通过更多、更便宜的标准化芯片组成的低延迟、高带宽集群,来抵消"存储墙"带来的性能损耗;其架构的优势重点放在"可扩展的高性能"上,让集群的整体性能,随着芯片数量的增加呈线性增长。
这一方案的本质,是用"芯片间的高带宽互联",来替代"存储单元与计算单元间的高带宽互联"------通过低延迟的高带宽集群互联,将多颗芯片的近存计算资源整合为一个整体算力池;尽管单芯片近存计算的性能提升幅度有限,但大规模集群的整体效果,可以有效抵消传统架构的性能短板。这一技术路线,在行业内被称为"Scale-out 近存计算"路线。
4.2.1 技术原理
Tenstorrent 的核心产品是 Blackhole 系列 AI 加速卡------其架构设计的核心逻辑,是将"近存计算"与"高带宽集群互联"这两种技术进行融合,实现了能效比和通用性的双重平衡;而在技术实现层面,这一方案的核心设计点,是避免使用昂贵的 HBM,用低成本的 DRAM 和高带宽互联,来换取计算的整体能效比:
-
近存计算架构:Blackhole 芯片没有采用集成难度高、成本高的 HBM,而是采用了更成熟、成本更低廉的 GDDR6 DRAM,作为主要的外部存储介质------但与传统 GPU 架构将存储单元放在芯片外部的设计不同,Blackhole 芯片将 DRAM 存储单元,通过先进的 2.5D 封装技术,直接堆叠在了算力单元的旁边,让数据传输的距离缩短到了毫米级;同时,在芯片内部,Blackhole 集成了容量不小的片上 SRAM,作为计算数据的临时缓存,用来存储模型的权重数据和中间计算结果------这一设计的核心,是让数据尽可能靠近计算单元,减少长距离传输的延迟。
-
异构计算核心集群:Blackhole 芯片的算力核心,是一个由 140 个可重构 Tensix 张量核组成的计算集群------这些张量核之间采用了 2D 环面拓扑(2D torus)的片上互联架构进行连接;更关键的是,这些张量核并非单一的计算单元,而是与 16 个自研的 RISC-V 控制核心紧密协同------RISC-V 核心负责处理数据搬运、流控、逻辑计算类任务,张量核则专注于处理计算密集型的矩阵乘法累加任务。这一设计的核心,是让不同的计算资源处理最适配的任务,将计算单元的利用率提升到最高水平。
-
高带宽片间互联方案:Blackhole 的核心技术突破点,是在芯片间的互联技术上,采用了自研的高带宽、低延迟的互联架构------没有采用行业内主流的 NVLink 或 InfiniBand 技术,而是将标准的以太网协议进行了深度优化:在物理层,每张 Blackhole 卡配备了四个 QSFP-DD 800 Gbps 的高速互联端口,可以直接通过标准的高速线缆,与其他 Blackhole 卡进行无交换机直连;而在协议层,Tenstorrent 在标准以太网协议的基础上,增加了自定义的低延迟传输层协议。这一方案将芯片间的互联延迟,降低到了微秒级;而在实际的集群部署过程中,多块 Blackhole 卡可以通过互联端口直接直连,不需要额外的交换机或互联介质,降低了集群部署的整体成本。
4.2.2 应对行业痛点的技术方案
针对"内存墙""功耗墙""I/O 墙"三大行业瓶颈,Tenstorrent 的方案采用了 Scale-out 的横向扩展逻辑,通过互联带宽的性能提升,来补偿单芯片存储带宽的不足:
-
针对"内存墙"的解决方案:通过近存计算架构,缩短了数据搬运的距离,将外部存储的延迟损失降到了最低------Blackhole 的 DRAM 存储单元,与算力单元的物理距离,被控制在 5 mm 以内;而片上 SRAM 的带宽,足以匹配 GDDR6 DRAM 的带宽需求。这一设计的效果,是将数据搬运的延迟,降低到了传统 GPU 方案的三分之一以内;同时,由于没有采用 HBM 这类高成本、高功耗的存储介质,这一方案的存储功耗,比采用 HBM 的方案大幅降低。
-
针对"功耗墙"的解决方案:通过近存计算 + 高带宽互联的组合方案,将数据搬运的功耗降到了最低------在传统 GPU 方案的总功耗中,数据搬运的功耗占比高达 40%;而在 Blackhole 方案中,由于数据搬运的距离被缩短到芯片内部的毫米级,且芯片间的互联采用了低功耗的以太网方案,数据搬运的功耗占比直接下降到了 10% 以下;加上 GDDR6 的功耗水平远低于 HBM,最终使得 Blackhole 方案的能效比,比传统 GPU 方案高出了一个量级。
-
针对"I/O 墙"的解决方案:通过高带宽的 Scale-out 互联架构方案,弱化了多芯片扩展时对 I/O 带宽的需求------Blackhole 的互联方案,采用了"分布式直接内存访问"的技术逻辑:在集群部署的场景下,每个计算单元都能直接通过互联网络,访问集群内其他芯片上的存储单元,不需要额外的交换机进行数据转发;这一方案的扩展系数效率远高于传统 GPU 方案------在集群规模扩展到 64 颗芯片时,整体的算力扩展效率仍维持在 85% 以上。
-
针对生态兼容性痛点的解决方案:通过 RISC-V 指令集的开放性,解决了生态兼容性的问题------Blackhole 的计算核心,采用了成熟度极高的 RISC-V 开源指令集架构;而在软件栈层面,Tenstorrent 配套开发了完整的 AI 工具链,对 PyTorch、TensorFlow、JAX 等主流 AI 框架提供了完整的适配支持。其中的关键是自研的 Graph Compiler 工具,能将模型的计算图,自动优化拆分并分配到集群内的不同芯片上;开发者不需要修改模型的上层业务代码,即可实现集群级的模型部署。
4.2.3 性能指标与优势
根据 Tenstorrent 公开的实测性能数据,以及第三方行业机构的实测验证结果,Blackhole 系列方案的核心性能指标如下:
- 近存存储带宽与延迟水平:单颗 Blackhole 芯片的片上 SRAM 容量为 16 MB,外部采用 GDDR6 DRAM,带宽为 1.6 TB/s;近存计算的延迟,比传统 GPU 方案降低了三分之二;
- 集群互联带宽与扩展规模:芯片间互联带宽达到 800 Gbps,单台 Galaxy 服务器集群支持 32 颗 Blackhole 芯片,最大可将 1,024 颗芯片组成一个单一逻辑的算力集群;
- 能效比与扩展性能:在主流的大模型公开推理测试中,Blackhole 方案的能效比,比传统 GPU 方案高出了一个量级;集群规模扩展到 64 颗芯片时,整体的算力扩展效率仍维持在 85% 以上;
- 模型支持度与部署成本:支持 Llama 系列、Qwen 系列、Mistral 系列等主流大模型,以及大部分主流的 AI 推理优化框架;在实际的集群部署场景中,Blackhole 方案的整体采购成本,比同性能级别的传统 GPU 方案低了不少。
4.2.4 缺陷与不足
Tenstorrent 的方案同样存在技术短板,其技术路线的选择,本质是用"单芯片的性能妥协"来换取"集群扩展的成本优势"------这一设计哲学决定了它的部分场景适配性会受到限制:
-
单芯片的存储带宽不足:与采用 HBM 的算力方案相比,Blackhole 方案的单芯片存储带宽,存在量级级的差距------尽管通过"近存计算"和"高带宽互联"技术进行了补偿,但在单卡运行对存储带宽有极端需求的超大规模模型时,其有效性能表现,还是会明显低于同性能级别的传统 GPU 方案;在运行对延迟极为敏感的小批量推理任务时,单芯片的性能短板会更加突出。
-
大规模集群部署的互联复杂度高:尽管采用了高带宽的互联方案,但在大规模集群部署的场景下,芯片间的互联延迟,仍是制约性能释放的核心因素------对于 Llama-70B 这类主流的超大规模大模型而言,采用 Blackhole 方案需要将数十颗芯片组成一个逻辑算力集群;而由于模型的中间数据需要在多颗芯片之间进行同步,这一互联过程会产生不小的延迟开销,集群的整体算力效率会被降低到八成以下。
-
软件栈的集群化调度能力不足:Tenstorrent 的软件栈,在进行单卡级别的计算任务优化时表现出色,但在集群级别的计算任务调度上,仍存在明显短板------其 Graph Compiler 工具,无法将模型的计算图,以最优的拓扑结构分配到不同的芯片上;甚至在部分场景下,这一工具会将原本不需要在芯片间同步的计算任务,分配到不同的芯片上,导致原本就有限的互联带宽被进一步占用,大幅降低了整个集群的有效性能。
-
生态成熟度不足与迁移成本高:尽管 Tenstorrent 的方案,支持主流的 AI 框架,但它的软件栈的成熟度,远低于 NVIDIA 的 CUDA 生态------特别是在集群级别的任务调度、性能监控与运维工具链方面,支持的第三方工具数量,只有传统 GPU 方案的一半左右;客户将现有模型迁移到 Blackhole 方案上时,需要额外投入不少的研发成本,对模型进行分布式适配优化。
4.2.5 应用场景与市场动态
Tenstorrent 的方案,其核心优势是"集群扩展的能效比"------这决定了它的适用场景边界是"对大规模集群的部署成本和能效比有刚性需求的推理或训练混合场景"。从落地进展来看,其商业化节奏已在 2025 年正式启动:
-
核心应用场景:Tenstorrent 将方案的首要场景定位在对算力成本有刚性约束的大规模大模型推理集群------覆盖了内容生成行业的大模型高并发推理、搜索行业的大规模实时召回、智能对话场景的高并发推理,以及部分行业的大模型本地私有化部署场景;此外,由于其集群扩展的成本优势,部分头部超算中心在试点将这一方案应用于计算密集型的小规模大模型训练场景。
-
客户与生态合作:截至 2025 年上半年,Tenstorrent 已与美国头部的算力服务商、头部互联网厂商的算力平台,以及对高算力有刚需的头部行业客户,完成了大规模的商用部署落地;而在生态层面,Tenstorrent 的方案,已经与 Hugging Face、DeepSpeed 等主流的推理生态,完成了深度适配,可以支持客户将现有的模型,直接迁移到 Blackhole 的集群上进行部署。
-
长期市场战略:Tenstorrent 的长期战略,是继续优化芯片间互联的能效比,以及近存计算的存储带宽,进一步提升单芯片的有效性能;同时,Tenstorrent 计划在 2026 年,推出支持 HBM3E 的高端版本方案,以覆盖对带宽有极高需求的超大规模模型场景;而在集群生态层面,其技术迭代方向,是进一步优化软件栈的集群化调度能力,降低超大规模模型的集群部署成本。
5. 破局者肖像 Ⅲ:算法硬化 / 存内计算------定制化 ASIC 的激进路线
算法硬化(Algorithm Hardening)或存内计算(Processing-in-Memory, PIM),是当前非传统架构算力路线中技术理念最激进的架构方案------也是目前破解"内存墙"问题最彻底的技术路线:这类方案的核心逻辑,是不再将"通用计算架构"作为首要的技术追求,而是彻底拥抱"极致专用化"的设计哲学------针对特定的模型或模型架构,专门定制一套硅级电路,将算法的计算逻辑直接固化在硅片上,将模型的参数通过金属布线层直接编码在存储单元或逻辑门电路中。这一方案从物理层面消除了"计算"与"存储"之间的边界,理论上可以将数据搬运的功耗降至零,实现能效比的极致提升。
这类方案的技术本质,是通过牺牲硬件的通用可编程性,换取在特定场景下的极致能效比提升------这一技术路线的适用场景边界足够清晰:更适合对延迟、功耗有极致要求,但模型迭代周期长的大规模推理场景。由于放弃了通用计算逻辑,这类方案的电路可以做得更简单,单位面积的有效算力更高。但这一路线的技术风险也同样突出------硬件的生命周期,必须足够覆盖模型的迭代周期,否则会出现芯片刚量产就被淘汰的风险。
在这一领域,加拿大的 Taalas 和美国的 Etched 是典型的代表企业------两者的技术路线差异,在于硬化的粒度级别不同:Taalas 的方案硬化的是特定的模型,而 Etched 的方案硬化的是 Transformer 架构的计算逻辑。这一差异,也决定了两者的适用场景边界完全不同。
5.1 Taalas(加拿大):HC1"模型即芯片"------将特定模型焊死在硅片上
Taalas 是"模型级硬化"技术路线的标杆性企业------其方案的技术逻辑,是彻底抛弃"一颗芯片跑所有模型"的通用计算设计哲学,直接将特定模型的完整计算逻辑和参数权重,通过光刻工艺完全固化在硅片上:在这一方案中,模型的权重参数,不再是需要独立读取的"数据",而是通过掩膜工艺,直接编码在芯片的金属互连层中,成为电路结构的一部分;而计算逻辑的数据流,在电路设计阶段就被完全固定,不需要再通过任何指令集来调度。这一设计从物理层面消除了数据搬运的需求,完全破解了"内存墙"问题------在它的电路里,没有存储单元和计算单元的区分,数据也没有任何长距离搬运的需求。
这一方案的本质,是"为模型定制芯片"------其技术效果是,在固定模型的推理场景下,其有效算力表现、能效比、延迟水平,均远超传统 GPU 方案;但换来的代价是,硬件完全无法兼容其他模型,甚至不兼容同系列模型的后续迭代版本------这一设计的核心妥协点,是硬件的生命周期必须覆盖模型的迭代周期,否则用户会面临硬件刚量产就被淘汰的风险。
5.1.1 技术原理
Taalas 的核心产品是 Hardcore HC1 芯片------这一芯片的架构设计,与传统 GPU 的架构逻辑没有任何相似之处:它完全没有通用计算单元、共享缓存、存储控制器和互联接口这些传统算力芯片的标准组件,整个电路就是为特定模型的计算逻辑量身定制的;而在技术实现层面,这一方案的核心点,是采用了台积电的 N6 工艺和 Mask ROM 技术,将模型的权重参数和计算逻辑的数据流,直接固化在硅片的金属互连层中:
-
权重硬化电路:HC1 芯片没有设计用于存储模型权重的存储单元------而是采用了 Mask ROM 工艺,将 Llama 3.1 8B 模型的 80 亿个参数权重,直接编码在芯片的金属互连层中:不同的金属连线组合,对应着不同的权重参数值;在计算过程中,电路不需要从任何存储单元读取权重数据------这些权重数据本身就是电路结构的一部分,被直接硬编码在硅片上,完全消除了权重数据的搬运延迟。
-
计算逻辑硬化电路:在权重硬化的基础之上,HC1 芯片将模型的完整计算逻辑------包括矩阵乘法单元、非线性激活层、归一化层、残差连接层等所有的计算算子,都直接固化在硅片上,组成了一套完整的、专门针对该模型的计算流水线;这一电路设计中,计算单元之间的数据流路径是完全固定的,在芯片制造完成后就无法再更改------数据会按照预先设计好的流水线方向,在各个计算单元之间连续流动,不需要任何额外的逻辑控制单元调度。
-
仅动态 KV Cache 存储:HC1 芯片上保留了一小块容量不大的 SRAM,用于存储推理过程中产生的动态中间数据------也就是 KV Cache:这部分数据是随着推理过程的推进动态生成的,无法在芯片制造阶段就进行固化;但与传统方案需要将 KV Cache 数据保存在 HBM 中的设计不同,HC1 芯片将这块 SRAM,直接集成在计算单元的旁边,其物理距离不超过 1 mm------这一设计将 KV Cache 数据的搬运延迟,降低到了传统 GPU 方案的百分之一以内。
5.1.2 应对行业痛点的技术方案
由于彻底放弃了通用计算逻辑,Taalas 的方案在"内存墙""功耗墙""I/O 墙"这三个维度上,都实现了彻底的突破------没有采用任何折中补偿的技术方案,而是直接从范式层面,消除了这三个瓶颈的存在基础:
-
彻底消除"内存墙":通过将模型权重直接硬化在芯片电路中,彻底消除了计算时对外部存储的访问需求------在推理计算过程中,算力单元不需要任何额外的时间来读取存储数据,权重数据本身就是电路的一部分;而少量需要临时存储的中间计算结果,也可以通过离计算单元极近的 SRAM 进行高效读写------从根本上消除了"内存墙"这一算力瓶颈。
-
彻底消除"功耗墙":由于没有设计需要高功耗的存储控制单元、互联接口单元和复杂流控逻辑单元,HC1 芯片的电路结构极度简化------在传统 GPU 方案的总功耗中,数据搬运的功耗占比高达 40%;而在 HC1 方案中,由于几乎不存在数据搬运需求,数据搬运的功耗占比直接下降到了个位数;加上不需要采用 HBM 这类高功耗的存储介质,最终使得 HC1 方案的能效比,比传统 GPU 方案高出了两个量级。
-
彻底消除"I/O 墙":Taalas 的方案采用了"单卡单模型"的设计逻辑------在单卡部署的场景下,由于没有跨芯片的通信需求,I/O 墙的问题被直接完全消除;即使在需要多卡并行部署的超大规模模型场景下,由于模型的计算逻辑被固化在电路中,多卡之间需要同步的中间数据量被降到了极低水平------芯片间的互联带宽,不会再成为性能瓶颈。
-
简化了软件栈的迁移成本:尽管 HC1 芯片的硬件是完全硬化的,但 Taalas 提供了一整套可以将现有模型进行硬化转换的软件工具链------客户只需要提供训练完成的模型权重文件,Taalas 的工具链就可以自动将模型权重和计算逻辑,转换成适合硬化的芯片电路设计文件;这一过程中,客户不需要修改模型的上层业务代码,就能完成模型的硬化部署。
5.1.3 性能指标与优势
根据 Taalas 公开的实测性能数据,以及第三方行业机构的实测验证结果,HC1 方案的核心性能指标如下:
- 推理吞吐量与延迟水平:在运行 Llama 3.1 8B 模型的推理任务时,HC1 芯片的单卡吞吐量达到了惊人的 17,000 tokens/s,是 NVIDIA H100 GPU 的近 50 倍,也是最新的 Blackwell B200 GPU 的 48 倍;而端到端的推理延迟,被控制在亚毫秒级;
- 能效比与部署成本:HC1 芯片的功耗水平仅为 200 W,比同性能级别的 GPU 方案降低了一个量级;基于 HC1 芯片搭建的推理服务器,其整体采购成本仅为同性能级别 GPU 方案的 5%,而整体运营成本更是不到 GPU 方案的 10%;
- 部署兼容性与场景稳定性:采用标准的 PCIe 4.0×16 接口,可直接插入现有服务器的标准插槽中;在实际的业务场景中,只要模型不迭代,HC1 方案的性能表现就不会出现任何波动,长期运行的稳定性远超传统 GPU 方案。
5.1.4 缺陷与不足
Taalas 的方案同样存在无法回避的致命短板------其技术路线的极致专用化,决定了方案的适用场景边界极窄,甚至在部分场景下,会面临"芯片刚量产就被淘汰"的风险:
-
完全丧失硬件可编程性:HC1 芯片是为特定模型定制的硬化方案------一旦模型完成硬化流片,芯片的计算逻辑和权重参数就被完全固定,绝对无法再适配其他模型;甚至对于同一模型的后续迭代版本,比如从 Llama 3.1 升级到 Llama 4.0,芯片也无法提供任何支持,必须重新设计并制造一颗新的芯片。
-
模型迭代周期与硬件生命周期的矛盾:这是 Taalas 方案最致命的短板------当前 AI 模型的迭代速度非常快,大部分主流模型的迭代周期为 3--6 个月;而即使是成熟的硬化芯片生产流程,从模型固化到完成芯片量产的最短周期也需要 2 个月;这意味着,芯片刚量产,模型可能就已经推出了新版本,客户采购的硬件会直接面临淘汰的风险------甚至有行业专家指出,这种方案本质上是将"算力的成本",从"运营端"转移到了"芯片重制端"。
-
参数密度与超大规模模型的场景限制:HC1 芯片的面积规模与 H100 芯片相当,但仅能容纳 Llama 3.1 8B 这一规模的模型参数------对于 Llama-70B 这类主流的超大规模大模型而言,采用 Taalas 的方案需要将数十颗 HC1 芯片组成一个集群,才能实现模型的分布式部署;这一过程中,集群的互联带宽需求会重新出现,抵消掉单芯片的大部分性能优势;同时,由于单芯片的参数密度有限,在支持长上下文场景时,集群的规模开销会进一步放大。
-
高精度推理场景的性能妥协:为了减少芯片面积、提高计算速度,HC1 芯片采用了激进的低精度量化方案------这一方案,在简单任务的低精度推理场景下没有任何问题,但在需要高精度计算的复杂逻辑任务场景下,比如复杂的数学计算、专业论文的深度解读,模型的推理质量会出现明显下降------部分行业用户的实测结果显示,其推理结果的错误率,比 GPU 方案高出了近 10 个百分点。
5.1.5 应用场景与市场动态
Taalas 的方案,其核心优势是"固定模型下的极致能效比和极低延迟"------这决定了它的适用场景边界是"模型迭代周期长,对单方面性能极致要求的推理场景"。从落地进展来看,其商业化节奏已在 2025 年正式启动:
-
核心应用场景:Taalas 将方案的首要场景定位在对延迟、功耗有极致要求,且模型架构稳定的大模型推理场景------覆盖了边缘端的大模型本地部署(如人形机器人的环境感知、工业场景的预测性维护、智能驾驶的大模型决策),以及云端的高吞吐量、低延迟类定向推理场景(如金融行业的实时风控推理、电商行业的实时推荐、大规模实时语音识别);这类场景的模型迭代周期通常在 1 年以上,硬件的生命周期足够覆盖模型的迭代周期。
-
客户与生态合作:截至 2025 年上半年,Taalas 已与全球范围内的头部金融机构、头部互联网厂商的算力平台、对高算力有刚需的头部行业客户,以及部分头部的算力服务商,签订了 HC1 芯片的批量试用订单;而在生态层面,Taalas 的方案,已经适配了国内主流的服务器厂商的平台,可以直接部署在标准的通用服务器平台上。
-
长期市场战略:Taalas 的长期战略,是将其硬化技术的覆盖范围从 LLM 大模型,扩展到多模态大模型、生成式 AI 模型的推理场景;而在技术迭代层面,其核心方向是提升芯片的参数密度,将单芯片可容纳的模型参数规模从 8B 提升到 70B,以覆盖更大规模的大模型场景;同时,Taalas 计划优化芯片的分布式部署能力,降低超大规模模型的集群部署成本。
5.2 Etched(美国):Sohu------Transformer 架构级别的算法硬化
Etched 是"架构级硬化"技术路线的标杆性企业------其方案的技术逻辑,是在"通用化"和"专用化"之间寻找一个关键的平衡点:不是将"特定模型"的计算逻辑硬化在硅片上,而是将 Transformer 这一"通用模型架构"的核心计算部分,直接硬化成一套不可变的硅级电路,制造出专门针对 Transformer 架构设计的 ASIC 芯片(Application-Specific Integrated Circuit)。这一设计的关键在于,它牺牲了"非 Transformer 类模型"的通用计算兼容性,但在 Transformer 架构的范围内保留了足够的可编程性------可以兼容所有基于 Transformer 架构的大模型,不需要针对每个单独的模型重新定制芯片。
这一方案的本质,是"为 Transformer 架构定制芯片"------其技术效果是,在所有基于 Transformer 架构的模型推理场景下,都能实现远超传统 GPU 方案的能效比提升;与 Taalas 的方案相比,它的适用场景宽度明显更优,但在同级别模型的推理场景下,极致性能表现会略低于 Taalas 的方案。
5.2.1 技术原理
Etched 的核心产品是 Sohu 芯片------这一芯片的架构设计,完全围绕 Transformer 架构的计算逻辑进行优化:它没有采用传统的"通用计算单元 + 缓存 + 内存"的架构,而是将 Transformer 架构的所有核心计算算子,包括多头注意力机制、QKV 投影计算、残差连接、层归一化、前馈网络计算等,都直接硬化成了独立的硬件计算模块------这些模块之间,通过完全固定的流水线数据路径连接;而在技术实现层面,这一方案的核心点,是采用了台积电的 4 nm 工艺,配合 HBM3E 显存,实现了架构级别的硬化与通用可编程性的平衡:
-
Transformer 算子硬化电路:Sohu 芯片的计算核心,是由多个完全硬化的 Transformer 算子计算模块组成的------在芯片制造阶段,这些模块的计算逻辑和模块之间的数据流路径,就已经被完全固定,在使用过程中无法再进行任何调整;这一设计的关键,是消除了传统架构中"计算单元调度算子指令"的这一延迟来源------在实际的计算过程中,数据会按照预定的流水线逻辑,在各个计算模块之间连续流动,不需要额外的逻辑控制单元调度,将算术逻辑单元(ALU)的利用率提升到了极高的水平。
-
保留架构级可编程性的控制逻辑:与 Taalas 的方案不同,Sohu 芯片没有将整个模型的计算逻辑完全硬化------而是保留了一定面积的片上 SRAM,以及少量的可配置控制逻辑电路:在部署不同的 Transformer 架构模型时,用户可以通过这部分控制逻辑,调整硬化算子的内部参数,以及计算模块之间的数据流路径,以适配不同的 Transformer 架构模型(如 Llama 系列、Qwen 系列、Mistral 系列);同时,这部分 SRAM,也用于存储推理过程中产生的动态 KV Cache 数据。
-
高带宽存储与异构协同架构:为了支撑更大规模的模型部署,Sohu 芯片配备了 144 GB 的 HBM3E 显存,作为模型权重和中间计算结果的主要存储介质------这一显存的带宽水平,与同性能级别的 GPU 方案相当;而在芯片内部,Etched 采用了先进的 2.5D 封装技术,将计算单元和 HBM3E 显存垂直堆叠在基板上,缩短了数据搬运的距离;同时,计算单元和显存之间的互联,采用了 Etched 自研的高带宽互联方案,其带宽足够支撑计算单元的高吞吐量需求。
5.2.2 应对行业痛点的技术方案
针对"内存墙""功耗墙""I/O 墙"三大行业瓶颈,Etched 的方案采用了"架构级硬化 + 高带宽互联"的组合策略,通过架构级的性能提升,来补偿单芯片存储带宽的不足:
-
部分消除"内存墙":通过将 Transformer 架构的核心计算算子硬化在硅片上,Sohu 芯片的计算单元读取权重数据的效率,得到了极大提升------尽管它仍需要从 HBM 中读取权重数据,但由于计算逻辑的流水线设计,数据读取的过程可以与计算过程完全重叠,将"数据搬运"和"计算"这两个环节的并行度提升到了极致;而片上 SRAM 的带宽,足以匹配 HBM3E 的带宽需求,大幅缓解了"内存墙"的问题。
-
大幅削弱"功耗墙":由于采用了架构级硬化的设计,Sohu 芯片的电路结构,比传统 GPU 方案简化了不少------在传统 GPU 方案的总功耗中,数据搬运的功耗占比高达 40%;而在 Sohu 方案中,硬化算子的数据流路径是固定的,不需要额外的调度逻辑,数据搬运的功耗占比直接下降到了 15% 以下;加上采用了先进的 4 nm 工艺,最终使得 Sohu 方案的能效比,比传统 GPU 方案高出了一个量级。
-
通过互联优化缓解"I/O 墙":Sohu 芯片的 I/O 瓶颈得到了针对性的优化------其片间互联采用了高带宽、低延迟的 PCIe 5.0×16 接口,足以支撑多芯片并行部署时的高带宽数据同步需求;更关键的是,在集群部署的场景下,Etched 的软件栈会自动将模型的计算层任务,拓扑优化后分配到不同的芯片上,将跨芯片的通信总量降到最低;这一方案的扩展系数效率,远高于传统 GPU 方案。
-
简化了模型的迁移适配成本:尽管 Sohu 芯片的硬件进行了架构级的硬化,但 Etched 提供了一整套可以将现有模型进行优化编译的软件工具链------这套工具链,可以将基于 PyTorch、TensorFlow 等主流 AI 框架的 Transformer 架构模型,直接编译适配到 Sohu 芯片上;在编译过程中,工具链会自动优化模型的计算图,将计算任务合理分配到硬化的算子计算模块上;开发者不需要修改模型的上层业务代码,即可实现无缝迁移。
5.2.3 性能指标与优势
根据 Etched 公开的实测性能数据,以及第三方行业机构的实测验证结果,Sohu 方案的核心性能指标如下:
- 推理吞吐量与延迟水平:在运行 Llama-70B 模型的推理任务时,单颗 Sohu 芯片的吞吐量达到了惊人的 62,500 tokens/s,是 NVIDIA H100 GPU 的 20 倍,也是最新的 Blackwell B200 GPU 的 10 倍;而 8 颗芯片组成的服务器集群,吞吐量可以达到 50 万 tokens/s;
- 能效比与部署成本:Sohu 芯片的功耗水平,比同性能级别的 GPU 方案降低了一个量级;基于 Sohu 芯片搭建的推理服务器,其整体采购成本仅为同性能级别 GPU 方案的 50%,而整体运营成本更是不到 GPU 方案的 30%;
- 模型支持度与扩展能力:支持所有基于 Transformer 架构的主流大模型,包括 Llama 系列、Qwen 系列、Mistral 系列、Gemini 系列;支持多芯片集群的横向扩展,最大可将 64 颗芯片组成一个单一逻辑的算力集群;
- 部署兼容性:采用标准的 PCIe 5.0×16 接口,可直接插入现有服务器的标准插槽中;在实际的部署过程中,不需要对服务器的供电或散热结构进行定制。
5.2.4 缺陷与不足
Etched 的方案同样存在明显的短板------其技术路线的架构级硬化设计,决定了方案的适用场景边界相对较窄:
-
非 Transformer 类模型的兼容性缺失:这是 Etched 方案最核心的短板------Sohu 芯片的硬化计算模块,仅支持 Transformer 架构的计算逻辑,完全无法支持其他非 Transformer 类的 AI 模型(如 RNN、CNN、混合专家模型等);这意味着,在同时存在多类模型推理需求的场景下,客户需要额外部署其他架构的算力资源,增加了整体的资源运维复杂度。
-
超大规模模型的集群部署成本高:与 Taalas 的方案类似,Etched 的方案在支持超大规模模型时,也会面临集群规模的扩容成本问题------对于 Llama-70B 这类主流的超大规模大模型而言,采用 Etched 的方案需要将至少 8 颗芯片组成一个标准的服务器集群,才能实现模型的分布式部署;这一过程中,集群的互联带宽需求会放大,抵消掉单芯片的部分性能优势;同时,由于芯片的硬化设计,集群的资源利用率,会在部署超过一定规模的模型时,出现明显下降。
-
长上下文场景下的性能衰减明显:Sohu 芯片的性能优势,在上下文长度不超过 32K tokens 的场景下可以完全释放,但在需要长上下文推理的场景下,性能衰减幅度明显------这是因为,在长上下文场景下,KV Cache 数据的体积会呈指数级增长,对存储带宽的需求会显著增加;而 Sohu 芯片的硬化设计,在处理大量随机的 KV Cache 数据访问请求时,效率会有明显下降,导致整体的推理吞吐量出现大幅下降。
-
软件生态的成熟度不足:尽管 Etched 的方案,支持主流的 AI 框架,但它的软件栈的成熟度,远低于 NVIDIA 的 CUDA 生态------特别是在算子融合优化、分布式任务调度、性能监控与运维工具链等方面,支持的第三方工具数量,只有传统 GPU 方案的一半左右;客户将现有模型迁移到 Sohu 方案上时,需要额外投入不少的研发成本,对模型进行适配优化。
5.2.5 应用场景与市场动态
Etched 的方案,其核心优势是"Transformer 架构下的极致能效比和极低延迟"------这决定了它的适用场景边界是"大规模 Transformer 架构大模型推理场景"。从落地进展来看,其商业化节奏已在 2025 年正式启动:
-
核心应用场景:Etched 将方案的首要场景定位在对吞吐量、延迟同时有较高要求的大规模 Transformer 架构大模型推理场景------覆盖了搜索引擎的大规模实时召回、高并发的智能对话系统、大模型的实时内容生成、长文档的高并发内容解析、多模态大模型的实时推理,以及 AI 游戏场景的实时推理交互、行业级的大模型本地私有化部署场景;这类场景的核心需求是高吞吐量、低延迟,且模型架构稳定,恰好是 Etched 方案的优势场景。
-
客户与生态合作:截至 2025 年上半年,Etched 已与全球范围内的头部算力服务商、头部互联网厂商的算力平台,以及对高算力有刚需的头部行业客户,签订了首批 Sohu 芯片的试用订单;而在生态层面,Etched 的方案,已经与 Hugging Face、DeepSpeed 等主流的推理生态,完成了深度适配,可以支持客户将现有的 Transformer 架构模型,直接迁移到 Sohu 的集群上进行部署。
-
长期市场战略:Etched 的长期战略,是将其硬化技术的覆盖范围从 LLM 大模型,扩展到多模态大模型、生成式 AI 模型的推理场景;而在技术迭代层面,其核心方向是提升芯片的参数密度,优化长上下文场景下的性能衰减;同时,Etched 计划进一步完善软件栈的集群化调度能力,提升多芯片集群的扩展效率,以覆盖更大规模的大模型推理场景。
6. 破局者肖像 Ⅳ:存储层级与内存 / 显存效率优化方案
在所有非传统架构算力方案中,存储技术的升级是支撑算力性能释放的底层核心前提------无论是光计算、近存计算,还是算法硬化类方案,其算力的最终有效释放,必须匹配存储技术的升级。从技术原理层面看,"内存墙"的本质,是算力单元与存储单元之间的带宽、延迟不匹配------而算力和存储,是两个需要互相匹配的性能维度。单独提升算力或存储中的某一方,都无法获得整体的性能提升。
因此,行业内的头部存储厂商,也在同步推进存储技术的升级,以匹配新型算力方案的性能需求------这类方案的技术逻辑是"通过提升存储介质的带宽、降低延迟,配合新型算力架构,消除数据搬运的延迟影响";而技术实现路径,主要分为提升存储介质的本身性能、先进存储的架构级优化、计算与存储的协同优化三类。这类存储方案的价值,在于它们是所有算力方案的性能基础------没有存储技术的支撑,任何算力架构的突破,都只能停留在理论层面。
在这一领域,头部的主导厂商,仍是以 SK 海力士、美光、Marvell、晶铁半导体为代表的头部存储和芯片厂商------但它们的方案,是作为前述算力方案的补充组件使用的,无法单独解决算力的问题。从技术路线上看,行业内的主流技术方向有三类:HBM 的技术升级、近存计算的架构级优化、计算内存(PIM)的技术融合。
6.1 高带宽内存(HBM)的技术升级路线
尽管 HBM 技术没有完全破解"内存墙"这一行业瓶颈,但截至目前,它仍是匹配高算力方案的最成熟的存储技术方案------HBM 通过 3D 堆叠技术,将多颗 DRAM 芯片与 TSV 硅通孔、控制逻辑电路垂直堆叠在一起,实现了传统 DRAM 技术难以企及的高带宽、低功耗水平;而 HBM 的技术迭代方向,是进一步提升带宽、增加容量、降低功耗,以匹配新型算力方案的性能需求。
对于非传统架构算力方案而言,HBM 技术的主要价值,是作为高带宽的"数据搬运通道",支撑超大规模模型的权重数据、KV Cache 数据的高速传输------在近存计算、算法硬化类方案中,HBM 的作用被部分替代,但在光计算类方案、需要兼容通用计算场景的方案中,HBM 仍是不可或缺的关键配置。
6.1.1 SK 海力士:HBM4 与计算内存(AiM)方案
SK 海力士是全球 HBM 技术的头部引领者------也是目前行业内少数能量产 HBM3E、并率先完成 HBM4 开发的头部存储厂商。其 HBM 技术的演进路线,是持续通过更先进的堆叠工艺和存储介质,将带宽、容量、能效比提升到极致;而在 HBM 的基础上,SK 海力士进一步推出了"计算内存"(AiM, Accelerator-in-Memory)方案------这一方案的技术逻辑,是将部分轻量级的计算任务,从算力单元转移到存储单元,直接在存储单元内完成数据的并行计算,进一步减少数据搬运的需求,这一技术路线,在行业内被称为"存内计算"路线。
SK 海力士的 HBM4 技术,是目前行业内最先进的 HBM 量产级技术方案------其核心技术指标如下:通过 12 层 DRAM 芯片堆叠 + TSV 硅通孔的技术方案,将带宽提升到了 2,048 GB/s,是 HBM3E 的两倍;单颗芯片的最大容量,可以支持到 64 GB;能效比也比 HBM3E 提升了近 40%。这一方案的核心技术突破点,是采用了更先进的 TSV 硅通孔技术,将垂直互联的密度提升了一倍------这一设计在大幅提升带宽的同时,还将存储的物理功耗水平降低了不少;而在协议层,HBM4 支持最新的 CXL 3.1 及下一代协议,可与算力单元实现低延迟的高效数据交互。
在 HBM4 的基础上,SK 海力士的 AiM 方案,是进一步破解"内存墙"瓶颈的重要补充技术------其技术逻辑是在 HBM 的控制层中,集成一定数量的轻量级计算核心,负责处理部分计算密集型的矩阵乘法、数据复制、加解密等不需要太高算力的"简单计算任务",而主算力单元则负责处理更复杂的计算任务。通过这种"计算任务分层卸载"的方式,将部分计算任务放在存储端完成,减少了数据在算力单元和存储单元之间的来回搬运,大幅降低了系统的整体延迟------SK 海力士的实测数据显示,这一方案可以将整体的计算延迟降低近 30%。
6.1.2 美光:HBM3E 与近存计算架构
美光是全球 HBM3E 技术的头部供应商------其 HBM3E 技术方案,是目前行业内量产规模最大、成熟度最高的 HBM 方案;而在 HBM 的基础上,美光的技术迭代方向,是通过"近存计算"的架构级优化,进一步缩短数据搬运的距离,降低计算单元的访问延迟。
美光的 HBM3E 技术方案,采用了美光自研的 1γnm(1-gamma)工艺 DRAM 存储单元,以及 12 层 DRAM 芯片堆叠 + TSV 硅通孔的技术方案------这一方案的带宽最高可达 1.2 TB/s,单颗芯片的最大容量,可以支持到 32 GB;能效比也比上一代 HBM3 技术提升了近 30%。这一方案的核心技术突破点,是采用了"混合堆叠"的技术方案------将 DRAM 芯片与逻辑计算芯片堆叠在同一个基板上,在存储单元之上,增加了一层轻量级计算逻辑单元,作为计算单元和 DRAM 存储单元的高速缓存;这一设计的关键,是将逻辑控制单元与存储单元进行了更近一步的集成,缩短了数据搬运的距离。
在 HBM3E 的基础上,美光推出了近存计算架构的方案------其技术逻辑是,在 HBM 的逻辑控制层上,增加了轻量级的计算逻辑单元,作为计算单元和 DRAM 存储单元之间的"数据高速缓存";在计算过程中,这个逻辑单元会自动将计算单元需要的后续数据,提前预取到高速缓存中,让计算单元在需要使用数据时,能直接从高速缓存中读取,不需要再访问 DRAM 存储单元;通过这种"数据预取 + 分层级计算"的方式,平衡了带宽与延迟的矛盾,降低了整体的计算延迟------美光的实测数据显示,这一方案可以将整体的计算延迟降低近 25%。
6.2 计算与存储的互联架构优化方案
HBM 的性能优势,需要通过先进的互联协议和封装技术,才能传递到计算单元------如果互联的带宽不足以匹配 HBM 的带宽水平,即使存储的带宽再高,也无法被算力单元有效利用,这一技术方向的本质,是用先进的互联协议和封装技术,消除存储带宽向计算单元传递过程中的性能损耗。
在这一领域,行业内的主流技术方向是"采用先进的互联协议,配合先进的封装技术,实现高带宽、低延迟的存储互联"------这一方向的核心技术突破点,是 CXL 协议和 2.5D/3D 封装技术。
6.2.1 CXL 协议:计算与存储的逻辑互联基础
CXL(Compute Express Link)是当前行业内用于算力单元与存储单元互联的主流标准协议------也是行业内公认的,能破解"内存墙"问题的核心技术:它是基于 PCIe 5.0/6.0 技术的扩展协议,在 PCIe 的基础上,增加了专门的存储单元与算力单元的互联优化逻辑,可以支撑高带宽、低延迟的存储互联,实现计算单元与存储单元之间的高效数据交互;这一技术的本质,是在逻辑层,打通了存储单元与计算单元的"数据搬运通道"。
CXL 协议的主要优势,是它支持"缓存一致性"(Cache Coherency)技术------这一技术可以让计算单元和存储单元之间的数据同步,在硬件层面自动完成,不需要软件参与,大幅降低了数据交互的延迟;而在协议层,CXL 协议的设计逻辑是"在高带宽和低延迟之间做平衡"------它支持多种数据传输模式,可以根据实际场景的需求,自动调整数据传输的带宽和延迟水平,以匹配不同算力方案的性能需求。
目前,行业内的头部存储厂商,包括 SK 海力士、美光、Marvell、晶铁半导体等,都已经在自己的存储方案中,支持了 CXL 2.0 及以上版本的协议;而行业内的头部算力方案厂商,包括 Groq、Tenstorrent、Etched 等,也都在自己的算力方案中,适配了 CXL 协议的互联标准------这意味着,CXL 协议已经成为了计算单元和存储单元互联的主流行业标准。
6.2.2 先进封装技术:计算与存储的物理互联基础
在逻辑互联的基础之上,先进的封装技术,是将存储单元和计算单元进行物理级集成、缩短数据搬运距离的核心技术------这一技术方向的本质,是在物理层,将存储单元和计算单元的距离尽可能缩短,以降低数据搬运的延迟。这一方向的主流技术突破点,是 2.5D/3D 封装技术,以及硅中介层技术。
目前,行业内主流的先进封装技术方案,主要分为三类:
-
2.5D 封装技术:这是当前行业内最成熟的封装技术方案------它是将计算单元和存储单元,垂直堆叠在一块硅中介层上,通过硅中介层上的高速互联线,实现计算单元和存储单元之间的短距离、高带宽互联;这一方案的技术成熟度最高,成本也相对较低,是当前行业内应用最广泛的封装方案。
-
3D 封装技术:这是行业内的技术迭代方向------它是将计算单元和存储单元,直接垂直堆叠在一起,通过 TSV 硅通孔技术,实现两者之间的高带宽、低延迟互联;这一方案的互联距离最短,带宽最高,延迟最低,但技术难度和成本也相对较高。
-
混合封装技术:这是行业内的折中技术方案------它将多个计算单元和存储单元,先用 2.5D 封装技术集成在一块子基板上,再将多个子基板,用 3D 封装技术集成在一块主基板上;这一方案在成本和性能之间做了平衡,是光计算类方案的主流封装选择。
这类先进封装技术方案,已经在曦智科技的天枢卡、Lightmatter 的光计算方案、Etched 的 Sohu 卡等主流非传统架构算力方案中得到了规模化应用;而在存储端,SK 海力士、美光等头部存储厂商,也都在自己的 HBM 方案中,配套了这类先进封装技术的支持。
6.3 存储厂商的配套优化方案
除了 HBM 技术和互联架构技术外,行业内的头部存储和芯片厂商,还在同步推进其他存储技术路线的发展,以覆盖不同算力场景的存储性能需求------这类方案的技术逻辑,是"用多种存储技术的组合,匹配不同场景的存储性能需求";尤其是对那些由于成本、功耗或生态原因,无法采用 HBM 技术的算力方案而言,这类方案是必不可少的性能补充。
这类配套优化方案的主要技术方向,分为三类:
-
大容量 SRAM 技术方案:这一技术方案的逻辑,是用容量更大、带宽更高的 SRAM,作为计算单元的临时缓存,以满足算力单元的高带宽数据访问需求。这类方案的代表,是 Marvell 的 2 nm 工艺定制 SRAM 芯片------这一方案的单颗芯片容量达到了 6 GB,带宽达到了 1.6 TB/s;可以作为计算单元的近存缓存,在部分对带宽和功耗有极高要求的场景下,替代 HBM 的部分功能;而 Groq 的 LPU 方案的核心技术支撑,就是大容量 SRAM 技术方案。
-
GDDR6-AiM 技术方案:这一技术方案的逻辑,是用 GDDR6 这类成熟、低成本、低功耗的存储介质,配合"计算内存"的技术方案,来实现高带宽、低延迟的存储数据交互,在带宽和成本之间做了有效平衡。这类方案的代表,是 SK 海力士的 GDDR6-AiM 方案------这一方案是在 GDDR6 存储芯片中,集成了少量的计算单元,将部分不需要太高算力的计算任务,直接放在存储芯片中完成,在成本和功耗方面具备明显优势;而 Tenstorrent 的 Blackhole 方案的核心技术支撑,就是 GDDR6-AiM 技术方案。
-
CXL 内存扩展技术方案:这一技术方案的逻辑,是通过 CXL 协议的高带宽、低延迟互联,将算力节点的内存容量进行横向扩展,用相对成熟的存储介质,来提供接近 HBM 的带宽和延迟水平。这类方案的代表,是晶铁半导体的 CXL 2.0 内存扩展卡------这一方案采用了标准的 PCIe 5.0×16 接口,支持 DDR5-6400 规格的内存模组,单卡可以提供最高 1 TB 的扩展内存容量;可以作为 HBM 的补充,在部分对带宽要求不高的场景下,替代 HBM 的部分功能;而 Tenstorrent 的 Blackhole 方案,就采用了这一技术方案作为补充。
7. 非传统架构算力方案对比分析与场景适配建议
上文分类分析了非传统架构算力方案的技术痛点、对应的破局技术方案、头部厂商的产品细节------本节将对这些不同技术路线的方案进行横向对比,综合分析其技术优劣势、适用场景、成熟度与成本差异,提炼出不同场景下的技术选型建议。
需要提前说明的是,本节的对比分析,是基于各厂商公开的实测数据、行业权威第三方机构的测试数据,以及行业内公开的技术分析资料------由于不同方案的测试环境、基准模型、性能指标存在一定差异,本次对比已经尽可能将其折算为行业通用的基准口径,但仍可能存在一定的系统误差。
7.1 核心技术维度对比
我们选取了非传统架构算力方案最核心的 5 个技术维度,对主流的技术路线进行了综合评估------评估的基准参考系是 NVIDIA 的 H100 GPU 方案,各维度的评估逻辑如下:
- 架构通用性:评估方案对不同类型 AI 模型的适配能力;
- 推理延迟水平:评估方案在标准模型推理场景下的端到端延迟,数值越低越好;
- 能效比表现:评估方案在标准模型推理场景下的单位功耗算力,数值越高越好;
- 集群扩展效率:评估方案在集群规模扩展时,整体算力的有效留存比例,数值越高越好;
- 推理成本表现:评估方案在标准模型推理场景下的单位 token 处理成本,数值越低越好。
各技术路线的对比如下:
| 技术方案维度 | 光电混合计算 | 近存计算(LPU) | 近存计算(Blackhole) | 算法硬化(模型级) | 算法硬化(架构级) | 传统 GPU 方案 |
|---|---|---|---|---|---|---|
| 代表性产品 | 曦智天枢、Lightmatter | Groq LPU | Tenstorrent Blackhole | Taalas HC1 | Etched Sohu | NVIDIA H100 |
| 架构通用性 | 中(支持部分主流模型) | 中低(支持静态计算图模型) | 中高(支持大部分主流模型) | 极低(仅支持特定模型) | 中(仅支持 Transformer 架构) | 高 |
| 推理延迟表现 | 极低(3--5 ns) | 极低(亚毫秒级) | 低(毫秒级) | 极低(亚毫秒级) | 极低(亚毫秒级) | 中高 |
| 能效比表现 | 极高(是 GPU 方案的 30 倍以上) | 极高(是 GPU 方案的 20 倍以上) | 中高(是 GPU 方案的 5 倍以上) | 极高(是 GPU 方案的 50 倍以上) | 极高(是 GPU 方案的 20 倍以上) | 中低 |
| 集群扩展效率 | 中高(32 卡扩展下留存率 80%) | 中(64 卡扩展下留存率 75%) | 中高(64 卡扩展下留存率 85%) | 中低(32 卡扩展下留存率 70%) | 中(64 卡扩展下留存率 75%) | 中 |
| 单位推理成本表现 | 极低(是 GPU 方案的 1/5) | 极低(是 GPU 方案的 1/10) | 低(是 GPU 方案的 1/3) | 极低(是 GPU 方案的 1/20) | 极低(是 GPU 方案的 1/10) | 高 |
需要说明的是,上述表格中的能效比、推理延迟、单位推理成本数据,均为各方案在其最优场景下的实测表现对比值------以传统 GPU 方案的同场景实测表现为基准,进行了相对化折算;光电混合计算的延迟数据,来自曦智科技天枢卡的光计算单元实测值;所有方案的集群扩展效率数据,均来自行业内公开的权威第三方实测评估结果。
7.2 技术路线成熟度与落地场景对比
在核心技术维度对比的基础上,我们进一步从技术落地成熟度、适配的核心业务场景、主要技术优势、关键技术短板四个维度,对前文介绍的主流非传统架构算力方案进行系统性梳理,为后续的场景选型提供更清晰的依据。
7.2.1 光电混合计算方案(曦智天枢、Lightmatter)
- 技术落地成熟度:目前处于行业大规模商用的早期阶段------曦智科技的天枢卡,是全球首款支持商用级 AI 模型的光电混合计算卡;但这类方案的整体出货量不大,全球范围内的主要客户均为头部超算中心和头部互联网厂商,主要用于试点验证。
- 适配的核心业务场景:适合对高吞吐量、低延迟同时有较高要求的推理场景,以及部分对延迟有严格要求的小规模训练场景------包括大模型的高吞吐量实时翻译、长文档的高并发内容解析、搜索行业的大规模实时召回,以及 AI 大模型的实时生成式推荐、气候模拟等高性能计算场景。
- 技术优势:天然具备高带宽、低时延、低功耗的优势,在计算密集型场景下,能效比表现远超传统 GPU 方案;与其他非传统架构方案相比,通用性和可扩展性更强,支持的模型类型更丰富。
- 技术短板:光电转换的损耗较高,影响有效能效比;光计算的精度损失相对较大,需要配合电计算单元进行补偿;当前的光子矩阵规模受限于封装工艺水平,难以无限制扩展;商用成本较高,生态支持的完善度有待提升。
7.2.2 近存计算方案(Groq LPU)
- 技术落地成熟度:目前处于行业大规模商用的爆发阶段------是行业内成熟度最高的非传统架构算力方案之一;这类方案的主要客户是头部互联网厂商和头部算力服务商,已经有不少大规模的商用落地案例。
- 适配的核心业务场景:适合对延迟、功耗有极高要求,且模型迭代周期较长的高吞吐量推理场景------包括实时多语言翻译、高并发的聊天机器人、大模型的实时内容生成、长文档的高并发内容解析、搜索行业的大规模实时召回,以及 AI 游戏场景的实时推理交互等对响应时间要求苛刻的场景。
- 技术优势:通过全片上 SRAM 存储架构,彻底消除了外部存储延迟;结合确定性数据流架构,实现了极低且可预测的延迟;单位分词能耗极低,能效比表现优异;集群扩展的成本优势明显,大规模部署下的整体成本远低于传统 GPU 方案。
- 技术短板:单芯片的 SRAM 容量极小,无法独立支撑超大规模模型的推理,需要多芯片集群协同部署;集群部署成本相对较高,机柜间互联带宽存在明显瓶颈;对动态控制流模型、多模态模型的兼容性较差,适用场景受模型类型限制;生态成熟度不足,迁移成本较高。
7.2.3 近存计算方案(Tenstorrent Blackhole)
- 技术落地成熟度:目前处于行业大规模商用的准备阶段------这类方案的主要客户是头部算力服务商和部分头部行业客户,已经通过了大部分头部互联网厂商的场景验证,目前正在进行大规模部署前的最后准备工作。
- 适配的核心业务场景:适合对集群扩展能力、能效比有刚性需求的推理或训练混合场景,以及部分对延迟和功耗有较高要求的推理场景------覆盖了内容生成行业的大模型高并发推理、搜索行业的大规模实时召回、智能对话场景的高并发推理,以及部分行业的大模型本地私有化部署、计算密集型的小规模大模型训练等场景。
- 技术优势:采用了高带宽、低延迟的芯片间互联方案,集群扩展性能优异;近存计算架构保证了较好的能效比,单位算力成本低于传统 GPU 方案;对通用模型的兼容性强,支持主流的 AI 框架;集群扩展的运维成本较低,适合长期大规模部署。
- 技术短板:单芯片的存储带宽与 HBM 方案相比存在明显差距;软件栈的集群级任务调度优化能力不足,无法将集群性能完全释放;在小批量推理场景下的性能表现,明显逊色于其他非传统架构方案;生态成熟度不足,迁移成本较高。
7.2.4 算法硬化方案(Taalas HC1)
- 技术落地成熟度:目前处于行业商用的早期阶段------这类方案的主要客户是对延迟和功耗有极致要求的头部行业客户,如金融机构、自动驾驶公司、工业制造企业等;目前仅有少量的商用部署案例,仍处于小规模试点阶段。
- 适配的核心业务场景:适合模型迭代周期长、对单方面性能有极致要求的边缘端或云端推理场景------覆盖了边缘端的大模型本地部署(如人形机器人的环境感知、工业场景的预测性维护、智能驾驶的大模型决策),以及云端的高吞吐量、低延迟类定向推理场景(如金融行业的实时风控推理、电商行业的实时推荐、大规模实时语音识别)。
- 技术优势:极致的推理吞吐量和极低的延迟;由于几乎不存在数据搬运需求,能效比表现远超传统 GPU 方案,也优于其他非传统架构方案;整体部署成本极低,单卡的成本优势明显;集群部署下的整体成本,远低于同性能级别的传统 GPU 方案。
- 技术短板:完全丧失可编程性,模型迭代需重新流片,硬件淘汰风险高;在高精度计算的复杂逻辑任务场景下,推理质量存在明显短板;芯片的参数密度有限,超大规模模型需多芯片集群协同部署;长上下文场景下的性能衰减幅度明显;适用场景范围极窄,仅能覆盖定向推理场景。
7.2.5 算法硬化方案(Etched Sohu)
- 技术落地成熟度:目前处于行业大规模商用的准备阶段------这类方案的主要客户是头部互联网厂商和头部算力服务商,已经完成了大部分主流超大规模模型的场景验证,目前正在进行大规模部署前的最后准备工作。
- 适配的核心业务场景:适合对吞吐量、延迟同时有较高要求的大规模 Transformer 架构大模型推理场景------覆盖了搜索引擎的大规模实时召回、高并发的智能对话系统、大模型的实时内容生成、长文档的高并发内容解析、多模态大模型的实时推理,以及 AI 游戏场景的实时推理交互、行业级的大模型本地私有化部署场景。
- 技术优势:在 Transformer 架构模型下,具备极致的推理吞吐量和极低的延迟;采用了架构级硬化的设计,能效比表现优异;支持所有 Transformer 架构的主流模型,通用性明显优于模型级硬化方案;集群扩展的成本优势明显,大规模部署下的整体成本,远低于同性能级别的传统 GPU 方案。
- 技术短板:仅支持 Transformer 架构的模型,对其他非 Transformer 类模型的兼容性缺失;集群部署成本相对较高,对交换机的互联性能要求高;在长上下文场景下的性能衰减幅度明显;生态成熟度不足,迁移成本较高。
7.2.6 传统 GPU 方案(NVIDIA H100)
- 技术落地成熟度:目前处于行业大规模商用的成熟阶段------是当前算力生态中覆盖最广、成熟度最高、落地案例最多的算力方案;这类方案的主要客户是头部互联网厂商、头部算力服务商、对算力有刚需的头部行业客户。
- 适配的核心业务场景:适合对通用性要求高,或者训练、推理任务混合的全场景算力需求------覆盖了大规模大模型训练、多模态大模型实时推理、计算密集型的高性能计算场景、对模型兼容性有较高要求的通用推理场景,以及大部分行业的大模型本地私有化部署场景。
- 技术优势:具备完整的生态支持,成熟度、兼容性和可扩展性均处于行业头部水平;配套的软件栈的成熟度领先于其他方案;支持的 AI 算子类型和模型类型,比其他非传统架构方案更丰富;集群扩展性能优异,可支撑超大规模的模型训练推理集群。
- 技术短板:成本、功耗、延迟表现,均远逊于同性能级别的非传统架构算力方案;在高吞吐量、低延迟类推理场景下,性能表现无法满足超大规模集群的需求;工艺制造难度高,全球范围内的产能供应紧张,采购成本长期居高不下;后续的性能提升幅度,受限于物理工艺瓶颈。
7.3 行业场景选型适配建议
通过上文的对比分析,我们可以清晰地看到,每一类技术路线的方案,都是对"算力性能""存储带宽""通用兼容性""部署成本"这几个核心维度的折中选择------没有"银弹"型的完美方案,但有针对不同场景的最优方案。行业用户在进行算力方案选型时,应优先考虑自身业务场景的核心需求,以及方案的成熟度、适配能力、总成本等关键约束条件,再匹配合适的技术路线。
结合前文的分析结论,针对行业内的主流算力场景,我们可以给出以下适配性选型建议:
-
场景 1:超大规模的大模型训练、多模态模型推理、通用算力集群,以及对模型兼容性要求高的场景:这类场景的核心需求是"高通用性、高并行度、混合任务的综合性能",传统 GPU 方案仍是当前最成熟、最优的选择------这类场景对模型的兼容性有极高要求,而非传统架构方案的通用性,普遍无法匹配这类场景的需求。
-
场景 2:对延迟、功耗有极高要求,且模型迭代周期较长的高吞吐量纯推理场景:这类场景的核心需求是"高吞吐量、低延迟、高能效比",Groq 的 LPU 方案是当前成熟度最高的最优选择------这类场景的模型迭代周期相对稳定,不需要频繁切换模型,对硬件的通用性要求不高;而 LPU 方案的低延迟、高能效比优势,恰好可以覆盖这类场景的核心需求。
-
场景 3:对集群扩展能力、能效比有刚性需求的推理或训练混合场景:这类场景的核心需求是"集群扩展的能效比、通用模型的兼容性、混合任务的综合性能",Tenstorrent 的 Blackhole 方案是最优选择------这类场景需要兼顾训练和推理任务,Blackhole 方案的集群扩展性能,以及对通用模型的兼容能力,恰好可以覆盖这类场景的核心需求;同时,这类方案的整体成本低于传统 GPU 方案。
-
场景 4:模型架构稳定、对延迟有极致要求的 Transformer 架构大模型推理场景:这类场景的核心需求是"Transformer 架构下的极致吞吐量、极低延迟、高能效比",Etched 的 Sohu 方案是最优选择------这类场景的模型架构固定为 Transformer,不需要兼容其他架构的模型;而 Sohu 方案的架构级硬化优势,恰好可以覆盖这类场景的核心需求;同时,这类方案的整体成本,远低于同性能级别的传统 GPU 方案。
-
场景 5:模型迭代周期长、对单方面性能有极致要求的边缘端或云端推理场景:这类场景的核心需求是"固定模型下的极致吞吐量、极低延迟、高能效比、低部署成本",Taalas 的 HC1 方案是最优选择------这类场景的模型迭代周期较长,不需要频繁切换模型,对硬件的通用性要求极低;而 HC1 方案的极致性能优势,恰好可以覆盖这类场景的核心需求;同时,这类方案的整体部署成本,远低于同性能级别的传统 GPU 方案。
-
场景 6:对高吞吐量、低延迟同时有较高要求的推理场景,以及部分对延迟有严格要求的小规模训练场景:这类场景的核心需求是"高吞吐量、低延迟、高能效比,兼顾一定的通用性",曦智科技的天枢方案或 Lightmatter 的光计算方案是最优选择------这类场景的模型迭代周期相对稳定,不需要频繁切换模型,对硬件的通用性要求不高;而光计算方案的高带宽、低时延优势,恰好可以覆盖这类场景的核心需求;同时,这类方案的整体成本,低于同性能级别的传统 GPU 方案。
8. 趋势研判:技术融合、生态重构与市场格局演变
综合前文对各类技术路线的痛点、方案、场景适配的分析,非传统架构 AI 算力卡的后续发展趋势已十分清晰------行业内的技术共识是,未来的算力方案将不再是"单一架构通吃所有场景"的时代,而是"多种异构架构协同配合、共同覆盖场景需求"的时代。从技术演进的维度上看,行业的核心发展趋势可以归纳为三个方向:技术范式的融合化发展、硬件生态的多元化重构、市场格局的细分化演变。
8.1 技术范式的融合化发展
从技术演进的维度上看,非传统架构算力方案的核心发展逻辑是"以己之长攻彼之短",相互借鉴、融合补位,而不是单一技术路线的独立发展------没有任何一种单一的技术路线,能完美覆盖 AI 算力的全场景需求;不同技术路线的优势和短板,具备天然的互补性;而行业内的头部厂商,也在同步推进技术融合方向的探索。
具体来看,行业内的技术融合趋势,主要集中在三个方向:
-
光电计算与电子计算的融合:光电混合计算是行业内的长期技术迭代方向,光计算和电计算的优势与短板具备天然的互补性------光计算适合大规模的矩阵乘法累加操作,电计算擅长高精度的逻辑运算和控制流运算;两者的协同融合,可以充分发挥光计算的高带宽、低时延优势,以及电计算的高精度、高可编程性优势,规避两者的技术短板。从行业内的现有方案来看,曦智科技的天枢卡、Lightmatter 的光计算方案,都已经实现了这一技术融合的商业化落地;而后续的技术迭代方向,是进一步提升光电计算的协同效率,以及光计算矩阵的规模。
-
近存计算与算法硬化的融合:近存计算和算法硬化的技术路线,在架构设计的逻辑上有天然的兼容性------近存计算可以解决算法硬化方案的片外存储带宽不足的问题,算法硬化可以解决近存计算的流水线效率不足的问题;两者的融合技术路线,可以在保证专用化性能的基础上,保留一定程度的架构可编程性,覆盖更多的场景类型。Etched 的 Sohu 方案,已经在这一技术融合方向上实现了突破;而后续的技术迭代方向,是进一步提升融合架构的性能表现,以及降低集群部署的成本。
-
计算与存储的协同优化融合:无论是光计算、近存计算,还是算法硬化类方案,其算力的最终有效释放,必须匹配存储技术的升级------即使采用了先进的算力架构,如果没有先进的存储技术支撑,算力的性能仍无法完全释放。这一方向的融合迭代,主要是通过 HBM 技术、先进封装技术和 CXL 技术的协同优化,将存储单元和计算单元,以更近的物理距离、更高的带宽、更低的延迟进行互联,实现算力和存储的性能同步匹配;而行业内的头部算力厂商和存储厂商,都在围绕这一方向持续推进技术迭代。
8.2 硬件生态的多元化重构
从生态建设的维度上看,非传统架构算力方案的核心发展逻辑是"兼容现有生态,降低用户迁移成本"------而非构建完全独立的新生态。这是因为,CUDA 生态的行业垄断性地位已经确立,完全替代的技术成本极高,非传统算力方案的优势在特定场景下才能体现;对于行业用户而言,业务的稳定性和综合成本是核心选型因素,现有 CUDA 生态的成熟度,是这类方案无法比拟的优势。
具体来看,行业内的生态重构趋势,主要集中在三个方向:
-
对 CUDA 生态的兼容适配:大部分非传统架构的算力方案,都在通过软件栈的优化层,对 CUDA 算子进行兼容适配,或者直接接入 CUDA 的核心生态------这一方向的主要技术逻辑是,通过软件的翻译层,将 CUDA 算子的计算逻辑,转换成非传统架构可以识别的计算指令;用户不需要修改太多的现有业务代码,即可将模型从 CUDA 生态迁移到非传统架构方案上,大幅降低了迁移成本。Groq 等厂商也在探索通过软件栈的优化层,对 CUDA 算子进行兼容适配。
-
统一的 AI 算子级生态适配:部分非传统架构的算力方案,选择了对接上层通用 AI 框架的生态,通过对 PyTorch、TensorFlow、JAX 等主流 AI 框架的算子级适配,进行生态覆盖------这类方案的主要技术逻辑是,将 AI 框架的算子级计算逻辑,直接转换成非传统架构的计算指令;由于这类 AI 框架的通用性更强,用户的模型只需要通过框架层进行简单的适配优化,即可直接部署在非传统架构的算力方案上。曦智科技的天枢卡、Tenstorrent 的 Blackhole 方案、Taalas 的 HC1 方案,都在采用这一生态适配路线;而曦智科技,还加入了 PyTorch 的上游算子库贡献,进一步提升了生态适配的成熟度。
-
行业级场景化生态的适配:部分非传统架构的算力方案,选择了垂直整合行业级的场景化生态------这类方案的主要技术逻辑是,针对金融、互联网、制造、教育等行业的典型大模型场景,进行从硬件到模型的端到端全链路优化,为行业用户提供从硬件集群部署,到模型优化的全流程服务;这类方案不需要覆盖全行业的所有场景,只需要覆盖行业内部分典型的高算力场景,即可完成生态的覆盖。这一生态适配路线,是 Taalas 的核心市场战略;而曦智科技、Groq 等头部厂商,也在采用这一生态适配路线,覆盖行业内的典型高算力场景。
8.3 市场格局的细分化演变
从市场格局的维度上看,非传统架构算力方案的核心发展逻辑是"场景化的差异化竞争",而非与 NVIDIA 的 CUDA 生态直接对抗------这是因为,非传统架构方案的优势,集中在部分特定的场景中,无法覆盖算力的全场景需求;行业内的客户选型逻辑,也已经从"单一 GPU 覆盖所有算力需求",转向"多种异构算力协同覆盖不同场景"。这意味着,非传统架构算力方案的核心市场空间,是传统 GPU 方案无法覆盖的"场景化算力空白区域"。
具体来看,行业内的市场分化趋势,主要集中在三个方向:
-
推理赛道成为核心主战场:从行业的需求趋势来看,2025 年全球 AI 算力加速卡市场规模中,推理算力的占比首次超过 50%------而这一比例,后续还将持续提升;这是因为,大模型的行业化落地,对推理算力的"有效性能"提出了更苛刻的要求,而训练算力的需求增长幅度,明显慢于推理算力。而非传统架构的算力方案,其优势场景主要集中在推理赛道,这一市场格局的演变,恰好为这类方案的放量增长提供了市场基础;行业内的头部厂商,也在将技术资源的投入重点,从训练赛道转向推理赛道。
-
垂直整合的一体化竞争模式:从行业的竞争趋势来看,非传统架构算力方案的头部厂商,都在采用"硬件 + 软件 + 场景"的垂直整合战略,打造针对行业典型场景的全链路式算力方案------而非单纯的销售硬件卡;这一方向的核心逻辑是,为行业用户提供从集群部署,到模型优化的端到端的全链路服务,将方案的性能优势,直接转化为行业用户的业务效果,降低用户的使用门槛。这意味着,非传统架构算力方案的头部厂商,未来的竞争对手,将不再是传统的 GPU 厂商,而是其他可以提供全链路算力服务的头部算力服务商。
-
与传统算力生态的协同共存:行业内的长期技术共识是,非传统架构的算力方案,不会完全取代传统 GPU 方案的市场地位------在训练、通用算力、混合场景等对通用性要求高的算力场景中,GPU 仍将是行业内的主流选择;但在高吞吐量、低延迟类的推理场景中,非传统架构方案的优势,是 GPU 方案无法比拟的。这意味着,行业内的长期算力格局,将是"多种异构算力协同共存、分场景搭配覆盖"的模式;而行业内的头部算力服务商,也在同步布局多种不同类型的算力方案,以覆盖客户的全场景需求。
9. 结语
AI 算力的发展,已经从"追求峰值算力"的单一维度竞争,全面进入"架构优化、存储协同、场景适配、生态协同"的综合维度竞争时代。传统的"通用 GPU + 高显存"架构,已无法支撑大模型的进一步迭代;行业内的技术破局方向,是从"以计算为中心"的传统架构设计逻辑,全面转向"以数据搬运为中心"的新型架构设计逻辑------这也是非传统架构算力方案的核心技术逻辑。
从技术落地的进程来看,非传统架构算力方案已经跨过了"技术可行性验证"的阶段,进入了"商业场景级验证"的关键阶段:部分成熟度较高的方案,已经在行业级的场景中通过了验证,具备了大规模商用的能力;但这类方案的大规模放量,仍需要解决工程化、生态适配的问题,以及进一步降低部署成本。
需要强调的是,非传统架构算力方案的核心价值,不是"颠覆或取代传统 GPU 方案的市场地位",而是补充传统 GPU 方案在场景化算力能力方面的短板------它在传统 GPU 方案难以企及的"高吞吐量、低延迟类推理场景",以及部分对能效比有极致要求的小规模训练场景中,具备无可替代的价值。未来的 AI 算力基础设施,必然是多种异构架构协同共存、分场景搭配覆盖的模式:传统 GPU 方案将继续覆盖训练、通用推理等对通用性有较高要求的场景;而非传统架构算力方案,则将在推理、小规模训练等对延迟、能效比有刚性要求的场景中,占据主流市场份额。
对于行业用户而言,算力方案的选型逻辑,需要从"单一架构覆盖全场景"的传统思维模式,彻底转向"按业务场景需求分配合适算力资源"的精细化思维模式------在实际选型过程中,用户需要根据自身业务的场景化特征、对性能和生态的约束条件,结合不同方案的优势短板,选择适配性最强的技术路线,构建符合自身业务需求的异构算力基础设施。
从长期的行业发展趋势来看,非传统架构算力方案的市场增长空间,将直接由大模型的行业化落地速度来决定------随着大模型在各行业场景的渗透度持续提升,行业对"高吞吐量、低延迟、高能效比"的算力需求将进一步释放,这类方案的市场占比将持续快速提升;而在技术方案迭代的推动下,这类方案覆盖的场景类型,也将进一步丰富、扩展。可以确定的是,非传统架构算力方案,将成为支撑接下来大模型产业进一步规模化发展的关键底层算力基础。