用于 ChatGPT 的 FPGA 加速大型语言模型

简介：大型语言模型

近年来，大型语言模型（LLM）彻底改变了自然语言处理领域，使机器能够生成类似人类的文本并进行有意义的对话。这些模型，例如 OpenAI 的 GPT，具有惊人的理解和生成语言的能力。它们可用于广泛的自然语言处理任务，包括文本生成、翻译、摘要、情感分析等。

大型语言模型通常使用深度学习技术构建，特别是使用 Transformer 架构。Transformer 是一种神经网络模型，擅长捕获序列中的长程依赖关系，因此非常适合语言理解和生成任务。训练大型语言模型涉及将模型暴露给大量文本数据，这些数据通常来自书籍、网站和其他文本资源等来源。该模型学习预测句子中的下一个单词或根据它所看到的上下文填充缺失的单词。通过这个过程，它获得了有关语法、句法甚至某种程度的世界知识的知识。

与大型语言模型相关的主要挑战之一是其巨大的计算和内存需求。这些模型由数十亿个参数组成，需要强大的硬件和大量的计算资源来有效地训练和部署它们，正如 Nishant Thakur 在 2023 年的 LinkedIn 文章中所讨论的那样，"ChatGPT 背后令人难以置信的处理能力和成本：构建终极 AI 聊天机器人需要什么？资源有限的组织和研究人员在利用这些模型的全部潜力时经常面临障碍，因为云需要大量的处理或资金。此外，在生成响应时，需要存储以创建适当的标记、单词或单词子部分的上下文长度急剧增加，这对内存和计算资源提出了更高的要求。

这些计算挑战导致更高的延迟，这使得 LLM 的采用变得更加困难，而且不是实时的，因此不太自然。在这篇文章中，我们将深入探讨大型语言模型遇到的困难，并探索潜在的解决方案，为增强其可用性和可靠性铺平道路。

大型语言模型的加速

LLM 的构建通常需要一个大型系统来执行模型，该模型会继续增长到仅在 CPU 上执行的成本、功耗或延迟效率不再高的程度。加速器（如 GPU 或 FPGA）可用于显著提高计算功率比，大幅降低系统延迟，并以更小的规模实现更高的计算水平。虽然 GPU 无疑正在成为加速的标准，主要是因为它们的可访问性和易于编程，但 FPGA 架构实际上以比 GPU 低得多的延迟产生了卓越的性能。

由于 GPU 本质上是warp-locked架构，跨多个内核并行执行超过 32 个 SIMT 线程，因此它们也往往需要对大量数据进行批处理，以尝试抵消warp-locked架构并保持管道满。这相当于更多的延迟和对系统内存的更多需求。同时，FPGA 构建自定义数据路径以同时在多个数据块上执行多个不同的指令，这意味着它可以非常高效地运行，这是实时的，延迟要低得多，同时最大限度地减少外部存储器要求。因此，与竞争架构相比，FPGA 能够显著提高其 TOP 的利用率------这种性能差距只会随着系统扩展到 ChatGPT 大小的系统而扩大。

Achronix FPGA在吞吐量和延迟方面都优于实现LLM的GPU，因为系统可以扩展到超过10个设备（10000个GPU用于训练GPT8）。如果该模型可以使用INT20精度，那么使用GPT-10B作为参考，Achronix FPGA具有更大的优势，如下表所示。使用 FPGA 是有益的，因为 GPU 的交货时间很长（高端 GPU 超过一年），用户支持最少，并且比 FPGA 贵得多（每个 GPU 的成本可能超过10000 美元）。

将LLM映射到Achronix FPGA加速器

Achronix Speedster7t FPGA具有独特的架构，非常适合这些类型的模型。首先，它有一个硬件 2D NoC，可以解决数据进出和通过设备的问题。此外，它还使用具有紧密耦合块 RAM 的机器学习处理器（MLP），以实现计算之间的高效结果重用。最后，与其他FPGA类似，Achronix Speedster7t FPGA具有8组高效GDDR6内存，可提供更高的带宽，能够以4Tbps的速度加载参数。

由于这些系统需要扩展，因此 FPGA 可以实现各种标准接口，将卡互连在一起，并在它们之间无缝移动数据。Achronix Speedster7t AC7t1500器件具有32个100 Gbps SerDes通道，不需要专有且昂贵的解决方案，如NVLink。

大型语言模型的未来：扩展以增强语言理解和专用领域

由于这些大型语言模型需要巨大的规模才能以最小的延迟影响执行训练和推理，因此模型的复杂性将继续增长，这将使语言理解、生成甚至预测能力不断提高，而且准确性令人难以置信。虽然今天的许多 GPT 风格的模型都是通用的，但下一个很可能是专门为某些领域（如医学、法律、工程或金融）训练的专用模型。无论如何，在很长一段时间内，这些系统将在那里协助人类专家处理人工智能系统处理的更多日常任务，并提供解决方案建议或帮助创造性任务。

HBX-G500高性能加速卡

HBX-G500是一款高性能可编程加速卡，为AI、计算、网络等领域，提供多通道的高带宽存储、高性能计算、先进高速接口等解决方案；尤其大模型领域，可单卡运行大模型，且在小的batch size情况下，性能与A100/H100实力相当。

详情点击下面图片。

关于Achronix半导体公司

Achronix半导体公司是一家总部位于美国加利福尼亚州圣克拉拉市的无晶圆厂半导体公司，提供基于高端FPGA的高性能数据加速解决方案，旨在满足高性能、密集型计算和实时性处理的应用需求。Achronix是唯一一家同时提供高性能高密度的独立FPGA芯片和可授权的eFPGA IP解决方案的供应商。通过面向人工智能、机器学习、网络和数据中心应用的即用型，Achronix 的和产品得到进一步增强。所有的Achronix产品都由完全支持，使客户能够快速开发自己的定制应用。