定制化,面向大语言模型的GPU,Etched 把 Transformer 架构直接“烧“进硅片

您指的应该是 Etched 这家美国公司。它可能是当前硅谷最"极端"的 AI 芯片创业公司------不做通用 GPU,而是把 Transformer 架构直接"烧"进硅片,造出一颗只能跑 Transformer 大模型的 ASIC。

以下是详细介绍:


1. 公司背景:三个哈佛辍学生的豪赌

Etched 由 Gavin Uberti (CEO)、Chris Zhu (CTO)和 Robert Wachen(COO)于 2022 年在哈佛宿舍创立,三人均为 00 后,后来辍学全职创业。

Gavin Uberti 高中时是世界奥林匹克数学竞赛冠军,曾在 OctoML 做微内核开发和 AI 编译器优化。2022 年,他和 Chris Zhu 打赌"Transformer 将统治 AI 世界",认为通用 GPU 在 Transformer 推理上浪费了太多晶体管在灵活性上,专用芯片(ASIC)必然出现。

融资情况:

  • 2023 年:536 万美元种子轮
  • 2024 年 6 月:1.2 亿美元 A 轮(Primary Venture Partners、Positive Sum 领投,Peter Thiel、Two Sigma 等参投)
  • 后续融资使总融资额超过 6.25 亿美元 ,估值 reportedly 超过 50 亿美元

2. 核心产品:Sohu ------ 全球首颗 Transformer-Only ASIC

技术原理

Sohu 不是"支持 Transformer 的芯片",而是只能运行 Transformer 的芯片。它把 Transformer 的核心计算------多头注意力(Multi-Head Attention)、前馈网络(FFN)、LayerNorm、矩阵乘法------全部以**固定功能电路(Fixed-Function Logic)**的形式硬连线在硅片上。

这意味着:

  • 没有可编程性:不能跑 CNN、RNN、Mamba、Diffusion 等其他架构
  • 没有指令集开销:不需要像 GPU 那样通过 CUDA 内核调度,直接硬件执行
  • 极高的 FLOPS 利用率:Etched 声称利用率 >90%,而 GPU 通常只有 30-50%

硬件规格

  • 制程:台积电 4nm
  • 内存:144 GB HBM3E,带宽约 4,800 GB/s
  • Die Size:接近光罩极限(~800 mm²)
  • 服务器配置:8 颗 Sohu 组成一台服务器

3. 性能声称:与 NVIDIA 的对比

Etched 公布的性能数据非常激进,但尚未经过独立第三方验证,且截至 2026 年初仍未正式出货。

指标 Sohu(8 芯片服务器) NVIDIA H100(8 卡集群)
Llama 70B 吞吐 500,000+ tokens/秒 ~23,000 tokens/秒
单芯片吞吐 ~62,500 tokens/秒 ~700 tokens/秒(batch=1)
Time-to-First-Token 比 H100 快 6 倍 ~100ms(Llama 70B, 2k 输入)
功耗 极低(有报道称单卡 10W,但存疑) 700W(单卡)
等效替代 1 台 8-Sohu 服务器 ≈ 160 张 H100 ---

关键区别 :Sohu 的优势主要在 batch=1 的低延迟推理(单用户请求响应速度)。当 batch size 增大时(高并发 API 服务),GPU 通过批处理也能达到很高吞吐,此时 Sohu 的相对优势会缩小。


4. 商业模式与战略定位

Etched 并不只卖裸片,而是销售完整的数据中心推理服务器,直接与 NVIDIA DGX 竞争。

目标客户

  • 需要极低延迟的 AI 应用(实时语音/视频生成、自动驾驶决策、高频交易分析)
  • 无法承受 H100 集群成本但需部署大模型的创业公司
  • 自建数据中心的云厂商

供应链:与台积电合作 4nm 代工,并与 Rambus 合作解决芯片间高速互联。


5. 核心风险:一场"All-in"的架构赌注

Etched 最大的风险也是它最大的特点------极端专一性

  1. 架构风险:如果未来大模型主流从 Transformer 转向 State-Space Models(如 Mamba)、RWKV、或新的非注意力架构,Sohu 将完全失去价值,变成"电子垃圾"。Gavin Uberti 自己也承认:"如果 AI 行业抛弃 Transformer,Etched 就完了。"

  2. 出货延迟:2024 年 6 月发布芯片,但截至 2026 年初仍未大规模出货,存在执行风险。

  3. 软件生态:GPU 有 CUDA 生态护城河,Sohu 需要客户迁移模型和工具链,迁移成本未知。

  4. 制造风险:4nm 光罩极限尺寸的大芯片,良率可能较低,影响成本和供应。


6. 类比:比特币挖矿的历史重演

Gavin Uberti 经常用比特币挖矿来类比:早期比特币用 GPU 挖,后来出现比特币专用 ASIC(如比特大陆),性能比 GPU 高一个数量级,很快完全取代了 GPU。他赌 AI 推理也会走同样的路------从通用 GPU 走向 Transformer 专用 ASIC。


总结

Etched 代表了 AI 芯片设计的一个极端方向:用可编程性换效率。它不是"更好的 GPU",而是"除了 Transformer 什么都不做的芯片"。

  • 如果赌对:Transformer 继续统治 AI 十年,Sohu 可能在推理市场切走一大块蛋糕,甚至成为机器人、边缘设备的标配。
  • 如果赌错:架构一旦变迁,价值归零。

这也是为什么它引发巨大争议------有人视其为"推翻 NVIDIA 的唯一机会",也有人认为它是"史上最大的硬件赌注泡沫"。无论如何,它是目前**美国最符合"为大模型定制而非通用"**定义的芯片公司。

相关推荐
AI科技星1 小时前
引电统一方程:严格推导与量纲零错误验证
人工智能·算法·机器学习·架构·学习方法
小小龙学IT1 小时前
Go 后端并发实战:从 goroutine 到流水线架构
开发语言·架构·golang
Sam_Deep_Thinking1 小时前
结算分摊的策略模式:不同营销活动的扣点计算方案
java·设计模式·架构·系统架构
喵个咪2 小时前
技术复盘:基于 GoWind Admin 实现 Kratos 框架单体轻量化落地
后端·架构·go
●VON2 小时前
AtomGit Flutter鸿蒙客户端:API客户端与网络层
flutter·华为·架构·跨平台·harmonyos·鸿蒙
电商API_180079052472 小时前
高可用采集架构:分布式定时抓取淘宝商品详情项目设计
大数据·分布式·架构·数据挖掘·网络爬虫
heimeiyingwang2 小时前
【架构实战】线程池设计:高并发系统的资源管理艺术
分布式·架构
一个骇客2 小时前
分布式批处理:当你的单机脚本跑了一天一夜还没出结果
分布式·架构
故渊at3 小时前
系列一:架构思想进阶 | 第1篇 Android 架构演进实录:从 MVC 的“万能类”到 MVVM 的数据驱动
android·架构·mvc