端侧模型带来的三个新思考:剪枝、蒸馏、量化

大数据产业创新服务媒体

------聚焦数据 · 改变商业


端侧化是指将人工智能模型部署到终端设备上,直接在数据产生和处理的源头进行智能计算。随着人工智能技术的飞速发展,大型模型(大模型)在诸多领域取得了显著的成果,例如自然语言处理、计算机视觉和语音识别等。然而,大模型的部署和应用面临着诸多挑战,如计算资源消耗大、数据传输延迟、隐私保护等问题。因此,端侧化成为大模型落地的重要方式。

首先,端侧化能够有效降低计算资源的消耗。大模型通常需要大量的计算资源进行训练和推理,而云计算中心或服务器端的计算资源有限。将大模型部署到终端设备上,可以充分利用终端设备的计算能力,减轻云计算中心或服务器端的压力。此外,端侧化还可以实现分布式计算,将计算任务分散到多个终端设备上,进一步提高计算效率。

其次,端侧化能够减少数据传输延迟。在大模型的云计算模式下,数据需要在终端设备和服务器之间进行传输,这可能导致较高的数据传输延迟。尤其在实时性要求较高的场景中,如自动驾驶、实时翻译等,数据传输延迟可能会严重影响用户体验。而端侧化将大模型直接部署到终端设备上,避免了数据传输的过程,从而降低了数据传输延迟。

端侧化有助于保护用户隐私。在大模型的云计算模式下,用户数据需要传输到服务器端进行处理,这可能会涉及到用户隐私的泄露问题。尤其在涉及敏感数据的场景中,如医疗健康、金融交易等,用户隐私保护尤为重要。端侧化将大模型部署到终端设备上,用户数据在本地进行处理,无需传输到服务器端,从而有效保护了用户隐私。

此外,端侧化还可以促进大模型的个性化和定制化。由于终端设备具有独特的硬件和软件环境,大模型可以根据终端设备的特点进行优化和调整,实现更好的性能和效果。例如,在移动设备上,大模型可以通过模型压缩和剪枝等技术进行适配,以适应移动设备的计算能力限制。而在特定的应用场景中,大模型可以根据场景需求进行定制化,实现更精准的预测和决策。

最后,将大模型部署到终端设备上,还可以促进大模型与终端设备的深度融合,激发新的应用场景和创新点。例如,结合终端设备的传感器和摄像头,大模型可以实现更精准的环境感知和目标检测;结合终端设备的语音识别和自然语言处理能力,大模型可以实现更智能的人机交互和智能助手。

因此,端侧化是大模型落地的重要方式。它能够降低计算资源消耗、减少数据传输延迟、保护用户隐私、促进个性化和定制化,以及推动大模型的创新和发展。随着人工智能技术的不断进步和终端设备的性能提升,端侧化将发挥越来越重要的作用,为人工智能应用的落地和发展提供有力支持。

于是,在大模型端侧化的前提下,出现了三种新的业务模式。

剪枝

想要花开得灿烂,就免不了定期进行剪枝,在大模型领域也奉行如此的道理。

模型剪枝是一种模型压缩技术,旨在减小模型规模、降低计算量和内存占用,同时尽量保持原始模型的性能。其基本原理是将模型中的权重或其他参数进行逐个检查,如果某个参数对模型的性能影响很小,则将其设置为0,从而使得模型更加稀疏。

目前行业内比较知名的开发套件,比如英伟达APEX,就能有一个专门用来剪枝的库,可以帮助开发者快速锁定低权重的参数,让模型变得更稀疏。同时英伟达APEX还能够以权重大小、其对损失函数的敏感度,或是它在前向传播时产生的激活图(Activation Maps)的稀疏性等为评判标准,对过滤器进行修剪。进而大幅压缩模型的尺寸。

剪枝对于端侧化模型来说可谓是重中之重,现如今所有能有各种各样的手机大模型,都是剪枝技术带来的成果。但是在眼下阶段,剪枝技术还不够成熟,普遍存在两种情况。第一种情况是剪枝做得不够细致,这就会使得剪枝后的模型与剪枝前没有太大区别,无法达到预期中小体量高性能的效果。第二种情况就是剪枝得有点过了,一些权重值较高的参数被设置为0了,这就会让模型出现稀疏矩阵,从而大幅降低模型的性能。

蒸馏

知识蒸馏是一种机器学习技术,旨在将大型、复杂的模型(通常称为教师模型)的知识传递给小型、高效的模型(通常称为学生模型)。这一过程对于实现模型的部署和优化具有重要意义,尤其是在资源受限的环境中,如移动设备或嵌入式系统。

在知识蒸馏过程中,教师模型和学生模型通常都是基于相同的任务进行训练。教师模型因其大尺寸和复杂性,能够学习更为复杂的模式和关系,从而在特定任务上取得较高的性能。学生模型则较小,能够在牺牲一定性能的情况下,实现更快的推理速度和更低的资源消耗。

知识蒸馏的核心思想是,通过将教师模型的输出(通常包括类概率)转化为软化后的概率分布,作为学生模型的训练目标。这样,学生模型不仅学习到了原始数据中的信息,还学习到了教师模型中的知识。这种软化后的概率分布包含了教师模型关于数据中各种关系的知识,从而使得学生模型能够在没有直接访问教师模型的情况下,尽可能地模仿其行为。

以IBM为例,在这家公司的基础模型库中有个模型叫做granite。这个模型根据功能和参数大小来划分,其中一个版本叫做granite-code-instruct,能通过根据自然语言提示生成、解释和翻译代码,为代码提供特定任务的模型。

基于这个功能的granite分为多个版本,其中有340亿参数的超大模型,也有仅30亿参数的模型。通过知识蒸馏,即便参数少了90%,granite-code-instruct依然能实现出相对应的功能。

量化

大模型量化是一种将大型神经网络模型中的权重和激活从浮点数(FP32)转换为低比特宽度的整数(如INT8、INT4等)的技术。这种技术的目的是减少模型的存储需求和计算成本,同时尽量减少模型的性能损失,使得这些模型能够在资源受限的设备上运行,比如手机、笔记本电脑等等。而且量化技术除了可以显著减少模型的尺寸,降低功耗外,还能加快推理速度,这对于模型的部署和广泛应用具有重要意义。

在量化过程中,首先需要选择合适的量化策略,包括权重量化和激活量化。权重量化通常使用对称量化或非对称量化,而激活量化则可能使用不同的量化范围和缩放因子。接下来,在训练过程中引入量化操作,使得模型能够适应量化带来的精度损失。这种方法通常包括使用伪量化操作或梯度尺度调整等技术。

量化校准是量化过程中的重要步骤,使用校准数据集来确定量化参数,如缩放因子和零点。校准过程通常使用最小最大值校准或百分位数校准等方法。然后,将浮点模型转换为量化模型,这涉及到修改模型定义和推理引擎,以支持量化操作。

以智普的GLM-4-9B为例,这个模型就是GLM-4量化后的结果。GLM-4-9B的量化方式是FP8。这是一种浮点数格式,它的特点是具有8位宽度,可以有效地减少模型的存储需求和计算成本,同时尽量减少模型的性能损失。FP8 量化技术使得 GLM-4-9B 模型能够在资源受限的设备上运行,如移动设备、嵌入式设备等。量化技术可以显著减少模型的尺寸,降低功耗,加快推理速度,这对于模型的部署和广泛应用具有重要意义。

在量化过程中,GLM-4-9B 模型的权重和激活从浮点数(FP32)转换为 FP8 格式。同时,为了减少量化带来的精度损失,模型在训练过程中采用了量化感知训练技术。这种方法通过在模型中插入伪量化节点,模拟量化操作的影响,使得模型在训练过程中逐渐适应量化带来的精度损失。

接下来就来到量化校准上了,如上文所述,量化校准是量化过程中的重要步骤,GLM-4-9B用校准数据集的方法确定量化参数。

在量化后的 GLM-4-9B 模型上运行一系列性能评估任务,如文本生成、文本分类等,以验证量化后的模型是否仍然保持了较高的性能。一旦量化模型通过了性能评估,它就可以被部署到目标设备上。由于量化模型的大小和计算需求都显著降低,这使得 GLM-4-9B 能够在更多的设备上运行,从而扩大其应用范围。

这样一来,GLM-4-9B 模型通过量化技术优化,使得大型语言模型能够在资源有限的设备上运行。

大模型量化是一个复杂的过程,需要深入理解模型的架构和推理流程。此外,量化可能会引入额外的计算开销,因此需要仔细设计和优化量化操作。尽管如此,量化技术为大模型的广泛应用提供了可能性,使得这些强大的模型能够在资源有限的设备上运行,为用户提供更加便捷和智能的服务。

文:火焰翼人 / 数据猿

责编:凝视深空 / 数据猿

相关推荐
查理零世2 分钟前
保姆级讲解 python之zip()方法实现矩阵行列转置
python·算法·矩阵
刀客12313 分钟前
python3+TensorFlow 2.x(四)反向传播
人工智能·python·tensorflow
SpikeKing19 分钟前
LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)
人工智能·llm·预训练·scalinglaws·100b·deepnorm·egs
zhbi9822 分钟前
测量校准原理
算法
时间很奇妙!38 分钟前
decison tree 决策树
算法·决策树·机器学习
小枫@码43 分钟前
免费GPU算力,不花钱部署DeepSeek-R1
人工智能·语言模型
liruiqiang0544 分钟前
机器学习 - 初学者需要弄懂的一些线性代数的概念
人工智能·线性代数·机器学习·线性回归
Icomi_1 小时前
【外文原版书阅读】《机器学习前置知识》1.线性代数的重要性,初识向量以及向量加法
c语言·c++·人工智能·深度学习·神经网络·机器学习·计算机视觉
微学AI1 小时前
GPU算力平台|在GPU算力平台部署可图大模型Kolors的应用实战教程
人工智能·大模型·llm·gpu算力
西猫雷婶1 小时前
python学opencv|读取图像(四十六)使用cv2.bitwise_or()函数实现图像按位或运算
人工智能·opencv·计算机视觉