前端高薪岗位之大模型端上部署及训练

自2022年ChatGPT发布以来，以大模型为依托的AIGC相关的应用产品，比如ChatGPT、Midjourney、Stable Diffusion等，在社交网站的讨论热度持续攀升，引发了较大范围的好奇与关注。

目前，国内外各个科技大厂在大模型的端侧部署领域均开始布局，比如在2023年8月14日的雷军年度演讲中，雷军宣布小米已经在手机端跑通13亿参数的大模型，部分场景效果媲美云端。

什么是大模型

2017年，Google 发表一篇划时代的论文《Attention is all you need》，这是一个标志性的事件。

基于 Transformer， 2018年OpenAI推出1.1亿参数的GPT，此后谷歌、微软、Facebook等前后相继推出自己的预训练模型。

特别是2020年OpenAI推出了1750亿参数的GPT-3，轰动全球，引发了各大顶尖科研机构在大模型研究的竞赛，大模型的参数规模逐渐增加。

LLM 的基础是 Transformer 块，Transformer是一种基于自注意力机制（self-attention）的神经网络结构，被广泛应用于自然语言处理任务中，它包括编码器和解码器两个主要结构。

目前，绝大多数的大语言模型均基于这种结构搭建而成，按照结构划分可以分为仅编码器模型、仅解码器模型和编码器解码器模型。

近一两年，微软、谷歌、Meta、百度、阿里、腾讯等国内外研究机构就大模型领域不断进行着技术创新和新型商业模式的竞争，大量的模型持续被设计、生产并发布。

其中基于Transformer的模型显示为非灰色颜色：蓝色分支表示仅解码器模型，粉色分支表示仅编码器模型，绿色分支表示编码器解码器模型。

可以发现大模型逐步向编码器解码器和仅解码器架构发展，模型的参数尺寸持续增加，训练数据持续增加，使得模型能力大幅提高的同时也使得模型对于算力的需求呈指数级增长。

目前业界大模型的研究主要有两个方向：

模型部署是帮助训练好的模型从"工厂"走入实际应用的关键步骤，部署大模型和普通模型的关键区别主要在于计算能力、存储空间、能耗等方面，由于模型本身的尺寸大、推理时需要的内存大、对算力的需求大。

因此对相关的硬件选择、模型压缩技术、算法优化技术和 SDK 开发都有着更高的要求，需要根据具体的应用场景和需求进行选择和优化。

LLM 参数量巨大，一般都在10亿（1B）以上，按照浮点数权重来计算的话，模型文件大小在 4GB以上，光是加载到内存就要占用 4GB 以上的空间，如果是在32位操作系统（严格来讲是地址位宽为32），系统的寻址空间就只有 4GB，整个内存空间全用上都装不下！

幸好现在已经是64位机的时代，大家手上用的智能手机不出意外的话基本上都是64位操作系统，理论上内存空间可以大到 64GB 任何大模型都可以装下，当然受限于硬件成本及硬盘容量的限制，64位寻址能够支持的最大内存只有几百TB。

目前主流智能手机的内存大小一般是 6GB ~ 12GB 左右，Windows系统的设备有 128GB、2TB、6TB 内存的机器，也就是说目前在我们最常用的手机和个人电脑（PC）上，已经具备加载和运行大模型的硬件条件。

对于移动端部署，硬件的选择需要考虑计算能力、功耗、存储空间、可靠性、兼容性、成本价格等多方面的因素。

模型部署区别于其他端上模型的最大之处在于大模型极高的参数量和随之而来的对计算、访存、存储的高需求。不同于训练阶段，推理时的内存占用通常由模型的权重 、kv缓存和一些其他中间结果共同构成，其中中间结果用完会尽快释放掉，占用的显存很小，可以忽略。

在大模型部署场景中，访存带宽通常为计算速度的主要限制，访存耗时甚至高达计算耗时的四百多倍。在端上运行时，batchsize通常为1，此时可以压缩模型参数存储精度的字节数，进而压缩访存时间。

模型量化技术是一种通过减少神经网络中参数的位数，从而减小模型的存储空间和计算量，提高模型的运行效率的技术，在移动端和嵌入式设备上的应用非常广泛。

常见的模型精度有FP32、FP16、INT8和INT4等，随着模型存储空间和计算量的减少，模型的精度也在下降。

Float32 (FP32) 是标准的 IEEE 32 位浮点表示。使用该数据类型，可以表示大范围的浮点数。在 FP32 中，为指数保留了 8 位，为尾数保留了 23 位，为符号保留了 1 位。

而在 Float16 (FP16) 数据类型中，指数保留 5 位，尾数保留 10 位。这使得 FP16 数字的数值范围远低于 FP32。在推理时，半精度权重通常能提供与 FP32 相似的精度，此时只需要一半的内存就能获得近似的推理结果。

同理，如果进行INT8量化，则模型大小会再次减半，如果进行INT4量化，则模型大小可以在理论上降至1/8。

在端上运行大语言模型通常采用Groupwise的INT4量化策略，Groupwise指的是将需要量化的数据分成n组，为每一组建立量化参数，当n越大，精度越高。

由于大模型运行的主要限制在访存上，反量化所额外需要的计算并不会超过访存的开销，因此整体而言此举可以大幅降低耗时。

综合来看，目前端上进行大模型推理的基本技术已经具备，但内存需求普遍不小于4GB，仍对设备的性能和优化能力有着较高的要求，内存容量、访存速度和计算能力共同制约了大模型在端上的整体表现。

通过对现有技术的分析和实践，我们能够直观地感受到当前端上大模型的技术壁垒和现实进展，针对这些制约因素，我们正在不断探索和优化技术方案，以提高设备的性能和优化能力，进一步减小模型尺寸，降低内存容量和访存速度的要求。

端上大模型的可行性和前景已经得到了业内的普遍认可，目前大量工程已在PC端、手机端实现大模型的离线部署，更有部分App登陆应用商店，只需下载即可畅通无阻地对话。

我们相信，在不久的将来，端上大模型推理将会成为智能应用的重要组成部分，为用户带来更加便捷、智能的体验。