将大块 SRAM 添加到 AI 张量引擎集合中,或者更好的是,添加到晶圆级的此类引擎集合中,可以极大地提升 AI 推理能力,AI 初创公司 Cerebras Systems、SambaNova Systems(据传英特尔去年底曾试图收购该公司)、Groq(刚刚被英伟达以 200 亿美元收购)和 Graphcore(一年半前被软银以 6 亿美元收购)在与英伟达和 AMD 的 GPU 进行比较时,已经一次又一次地证明了这一点。
但初创公司 Taalas(今天结束了隐身模式)表示,如果你真的想突破人工智能推理的极限,那么应该做的就是停止瞎折腾,将完成的人工智能推理的权重直接编码到芯片的晶体管中,并摆脱所有试图使计算引擎可塑性强,以便公司可以不断调整和优化其模型而产生的软件冗余。
通过这样做,还可以从根本上简化 AI 设备的架构,并且像 Taalas 所做的那样,可以消除困扰所有串行和并行计算引擎的计算和内存之间的壁垒------尤其是那些不得不求助于 HBM 堆叠 DRAM 以获得与其浮点和整数性能相称的带宽的 GPU 和 AI XPU。
Taalas成立两年半,已完成三轮风险投资,融资总额超过2亿美元。公司总部位于多伦多,这里是人工智能研究的热点地区之一,也是芯片技术人才的聚集地,包括Tenstorrent------Taalas的三位创始人均曾在此工作。Ljubisa Bajic是Taalas的联合创始人兼首席执行官,他同时也是Tenstorrent的创始人,广为人知。
鲜为人知的是,在互联网泡沫破灭后的几年里,巴吉克曾先后在 Teralogic 和 Oak Technology 担任视频编码器设计师,之后加入 AMD,并一路晋升,最终成为公司面向 PC 和服务器的混合 CPU-GPU 芯片设计的架构师和高级经理。巴吉克曾在英伟达担任高级架构师一年,之后重返 AMD 担任集成电路设计总监两年,随后创立了 Tenstorrent。2022 年秋季,芯片界泰斗吉姆·凯勒 (Jim Keller) 加入 AMD 后,巴吉克决定离开,休息六个月后,他开始着手研究一个完全不同的 AI 推理计算理念,并在多伦多创立了 Taalas 公司。
莱拉·巴伊奇(Lejla Bajic)是柳比沙的妻子,现任Taalas首席运营官。在互联网泡沫时期,她曾是FPGA制造商Altera的软件工程师,之后加入ATI担任高级工程师。ATI是一家加拿大GPU制造商,于2006年7月被AMD以54亿美元收购。多年来,莱拉·巴伊奇在AMD的工程部门步步高升,最终成为系统工程高级经理。2017年10月,她加入Tenstorrent担任同样的职位,并在丈夫离职后也离开了公司。
现在,您需要了解的是吞吐量、延迟和每个令牌的成本,这张图表汇总了所有这些信息:

在GPU系统中,交互性------即能够同时支持多少用户提出查询并获得答案------取决于你所需的延迟。如果你想要低延迟,就不能支持太多用户;如果你想要降低成本,就必须以增加输入或输出令牌的处理延迟为代价。
从测试结果来看,Taalas 在这两款机型上都展现出了更低的成本和更低的延迟。
我们期待HC卡投入量产后进行独立测试,并看看Taalas会为这些AI推理引擎定价多少。这看起来无疑将彻底改变AI推理领域的格局。

订阅我们的新闻简报
我们将本周的精彩内容、分析和报道直接发送到您的邮箱,中间没有任何干扰。
立即订阅
