Abstract
小型语言模型(SLM)由于其以最少的计算资源执行各种语言任务的效率和性能而变得越来越重要,使其成为各种设置的理想选择,包括设备上,移动的,边缘设备等。在这篇文章中,我们提出了一个全面的调查SLM,专注于他们的架构,训练技术和模型压缩技术。我们提出了一种新的分类法,用于分类的方法来优化SLM,包括模型压缩,修剪和量化技术。我们总结了基准数据集,是有用的基准SLM沿着与常用的评估指标。此外,我们强调了仍有待解决的关键开放性挑战。我们的调查旨在为有兴趣开发和部署小型但高效的语言模型的研究人员和从业者提供宝贵的资源。
文章目录
- Abstract
- [1. Introduction](#1. Introduction)
- [2 Model Architectures](#2 Model Architectures)
-
- [2.1 Lightweight Architectures](#2.1 Lightweight Architectures)
- [2.2 Efficient Self-Attention Approximations](#2.2 Efficient Self-Attention Approximations)
- [2.3 Neural Architecture Search Techniques](#2.3 Neural Architecture Search Techniques)
- [2.4 Small Multi-modal Models](#2.4 Small Multi-modal Models)
- [3 Training Techniques](#3 Training Techniques)
-
- [3.1 Pre-training Techniques](#3.1 Pre-training Techniques)
- [3.2 Fine-tuning Techniques](#3.2 Fine-tuning Techniques)
-
- [3.2.1 Parameter-Efficient Fine-Tuning](#3.2.1 Parameter-Efficient Fine-Tuning)
- [3.2.2 Data Augmentation](#3.2.2 Data Augmentation)
- [4 Model Compression Techniques](#4 Model Compression Techniques)
-
- [4.1 Pruning Techniques](#4.1 Pruning Techniques)
- [4.2 Quantization](#4.2 Quantization)
- [4.3 Knowledge Distillation Techniques](#4.3 Knowledge Distillation Techniques)
- [5 Evaluation](#5 Evaluation)
-
- [5.1 Datasets](#5.1 Datasets)
- [5.2 Metrics](#5.2 Metrics)
- [6 Applications](#6 Applications)
-
- [6.1 Real-Time Interaction](#6.1 Real-Time Interaction)
- [6.2 Content Generation and Processing](#6.2 Content Generation and Processing)
- [6.3 Edge Inference and Privacy](#6.3 Edge Inference and Privacy)
- [7 Open Problems](#7 Open Problems)
-
- [7.1 Hallucination](#7.1 Hallucination)
- [7.2 Biases](#7.2 Biases)
- [7.3 Inference-time Energy Use](#7.3 Inference-time Energy Use)
- [7.4 Data Privacy](#7.4 Data Privacy)
- [8 Conclusion](#8 Conclusion)
- [9 Limitations](#9 Limitations)
1. Introduction
尽管大型语言模型(LLM)在各种基准测试和现实世界中表现出令人印象深刻的性能,但它们的成功是以巨大的代价为代价的。LLM的训练和运行是资源密集型的,需要大量的计算和数据。这通常意味着它们在集中和专门的硬件上运行,用于训练和推理。作为对这些挑战的回应,人们对小语言模型(SLM)的兴趣越来越大。小型语言模型旨在保持大型语言模型的准确性和/或适应性,同时受到一些约束,例如训练或推理硬件,数据可用性,带宽或生成时间。相对于这些约束提高模型性能可以改善下游目标,例如隐私,成本或在消费者设备上运行的能力。
对小型语言模型进行调查的固有困难在于,"小型"和"大型"的定义是上下文和时间的函数。GPT2是2019年的"大型语言模型",参数为15亿,比本次调查中涵盖的许多"小型"语言模型都要小。然而,尽管规模发生了变化,但小语言模型的训练目标仍然相对稳定。在本调查中,我们探讨了能够构建和推断SLM的架构、训练和模型压缩技术。此外,我们总结了在评估SLM性能时常用的基准数据集和评估指标。为此,我们提出了一种新的分类法,用于沿沿着两个轴组织方法:
- 在预处理(模型架构)、训练和
- 后处理(模型压缩)SLM中使用的技术;
这些维度的概述可参见表1(技术)和表2(约束)。
必须指出,在这些目标中的任何一个方面取得进展并不一定意味着在其他方面取得进展。事实上,两者之间往往存在取舍。例如,像量化感知训练(Dettmers等人,2022 a、2024)通常比它们的全精度对应物慢。但是,通过使用混合精度来表示权重和梯度,它们允许使用较少的内存进行训练或微调。最后,尽管最近对LLM及其学习方法进行了几次调查(Rogers等人,2020年; Min等人,2021年; Zhu等人,2023年; Shen等人,据我们所知,这是第一次以SLM为重点的调查。
本文的组织。本调查分为三个主要部分,每个部分都涵盖了优化SLM的一个关键方面。第2节重点介绍模型架构,包括轻量级设计、高效的自注意力近似和神经架构搜索,以有效地构建更小的模型。第3节涵盖了有效的预训练和微调技术,以提高性能的SLM,同时管理资源的限制。第4节探讨了模型压缩技术,如修剪、量化和知识蒸馏,这些技术可以在不牺牲显著准确性的情况下减小模型大小和延迟。第5节介绍了基准数据集和评估指标的概述,为评估这些方法的有效性提供了一个全面的框架。第6节讨论了由SLM启用的应用程序,并按约束进行组织。最后,第7节讨论了SML的未决挑战。主要贡献摘要。这项工作的主要贡献如下:
为从业者全面调查关于小语言模型的现有工作。本文还给出了文献中使用的问题设置、评价指标和数据集。
我们为SLM介绍了一些直观的分类法,并使用这些分类法对现有工作进行了调查。
我们确定SLM的重要应用、未决问题和挑战,以供未来的工作解决。
2 Model Architectures
本节讨论开发SLM的体系结构设计。具体来说,我们涵盖了轻量级架构(第2.1节),有效的自我注意力近似(第2.2节)和神经架构搜索(第2.3节)。
2.1 Lightweight Architectures
轻量级语言模型架构旨在通过更少的参数和更低的计算开销实现高效的性能,非常适合部署在资源受限的设备上,如移动的电话、边缘设备和嵌入式系统。代表性的轻量级模型通常遵循仅编码器和仅解码器架构。轻量级的仅编码器架构大多数是BERT的优化版本(Devlin等人,(2019年版)。例如,MobileBERT(Sun等人,2020)引入了一种倒置瓶颈结构,以保持自注意和前馈网络之间的平衡,实现了4.3倍的尺寸减少和5.5倍的加速比相比,基本版本的BERT。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019年)达到96个以上
轻量级的仅解码器体系结构遵循诸如GPT的自回归语言模型的结构(拉德福等人,2018年、2019年)和LLaMA系列(Touvron等人,第2023段b)。这些模型强调知识提炼、内存开销优化、参数共享、嵌入共享等,以提高效率和可扩展性。BabyLLaMA(Timiryasov和Tastet,2023 a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分别将多名教师的知识提取到一个58 M参数模型和一个345 M参数模型中,证明了提取可以超过教师模型的表现,特别是在数据受限的条件下。TinyLLaMA(Zhang等人,2024),仅具有1.1B的参数,通过优化存储器开销,经由FlashAttention(Dao等人,2022年),同时为各种下游任务保持有竞争力的性能。MobilLLaMA(Thawakar等人,2024)应用了一种参数共享方案,该方案降低了预训练和部署成本,为资源受限的设备引入了0.5B参数模型。MobileLLM(刘等人,2024 e)进一步引入了具有逐块权重共享的嵌入共享和分组查询注意机制以减少等待时间。
2.2 Efficient Self-Attention Approximations
由于自注意层中的参数数量巨大,以及与自注意相关联的计算成本,部署大型语言模型可能具有挑战性。在本节中,我们将讨论减少这种计算成本的策略,这最终将有助于创建小型语言模型。重整器(Kitaev等人,20 20)通过使用局部敏感散列来代替点积注意,将自注意的复杂度从O(N2)提高到O(N logN).Roy等人(2021)使用了基于在线k均值聚类的稀疏路由模块,这降低了注意力计算的复杂度。
为了将自注意层的计算二次复杂度从O(N2)降低到O(N),几个工作,包括(Wang等人,2020年a; Katharopoulos等人,2020年; Xiong等人,2021年; Beltagy等人,2020),提出了线性注意机制。特别是,(Katharopoulos等人,2020)将自注意表示为核特征映射的线性点积,从而降低了二次复杂度。作者进一步表明,具有这种线性注意机制的变压器可以被视为一个递归神经网络,它能够实现更快的推理。在这些基础上,最新的技术进步带来了更高级的架构。值得注意的例子包括Mamba(Gu和Dao,2023年; Dao和Gu,2024年),它引入了一个具有输入相关转换的选择性状态空间模型,以及RWKV(Peng等人,2023),其将变换器和RNN的元素与线性注意机制相结合。这些模型不仅实现了线性的时间和空间复杂性,而且还展示了跨各种任务的具有竞争力的性能。高效序列建模架构的发展趋势旨在保持基于注意力的模型的表达能力,同时显著降低计算复杂度。
我们还提到了一些以前的工作,处理长文档与编码器纯架构。Longformer(Beltagy等人,2020)使用局部窗口化注意力和任务特定全局注意力的组合,该组合随输入长度线性缩放,因此是存储器高效的。Wang等人(2020 a)使用一个低秩矩阵来近似自我注意机制,将复杂性降低到O(N)。"这两项研究都表明,在各种下游任务中,具有线性自注意的转换器在经验上与原始自注意机制的性能相匹配。类似地,与传统变压器相比,Xiong等人(2021年)使用流行的Nystrom方法(Nyström,1930年)来近似自注意操作,具有很强的经验性能。
2.3 Neural Architecture Search Techniques
本节讨论为特定任务和硬件约束发现最有效的模型体系结构的自动化方法。以前的研究主要集中在视觉任务的神经体系结构搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和Bert模型(Xu等人,2021;Jwahar等人,2023;Ganesan等人,2021),因为这些模型具有相对较少的训练计算数据集大小推理运行时内存存储空间潜伏期的参数,这降低了搜索过程的成本,以实现高效的体系结构。
然而,拥有超过10亿个参数的LLM在寻找更小、更有效的模型方面提出了一个巨大的挑战。其庞大的规模使得搜索过程计算密集且成本高昂。最近,MobileLLM(Liu等人,2024E)研究了模型深度(即层数)和宽度(即头部数量)对性能的影响,有效地在较小的参数范围内对具有数百万参数的语言模型进行了有针对性的体系结构搜索。同时,沈等人也提出了自己的观点。(2024c)通过探索适当的搜索初始化来减少搜索空间,这有助于加快搜索进程的收敛。
2.4 Small Multi-modal Models
最近的大型多模态模型(LVMs)已经取得了与其前辈相当或上级的性能,同时显著减少了参数的数量。值得注意的示例包括LLaVA-Next(Liu等人,2024 a),Idefics 2(Laurençon等人,2024)和InternVL 2(Chen等人,2023)系列。这一进展部分是由更高效、更小的语言模型驱动的,比如Gemma(Team等人,2024)、phi-3-mini(Abdin等,2024年),并强调策展数据集的关键作用。此外,在多模态融合期间,已经有一致的努力来减小视觉编码器的尺寸。例如,InternVL 2利用来自大型视觉编码器的中间层的输出,同时丢弃后面的块。较小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024 c),采用轻量化视觉编码器。整体多模态模型通过完全消除视觉编码器来进一步实现这一点,而是使用轻量级架构来生成视觉令牌。例如,Chameleon(Team,2024 a)采用VQ-VAE模型将图像编码和解码成离散的令牌,而Mono-InternVL(Luo等人,2024 a)使用MLP来生成图像块的视觉标记,结合了模态特定的前馈网络,称为多模态专家混合,以区分模态。
3 Training Techniques
本节回顾用于语言模型预训练和微调的关键训练技术。虽然SLM涉及与LLM类似的培训方法,但我们将专注于有效的技术,以促进SLM资源有限的一般学习场景。
3.1 Pre-training Techniques
混合精度训练是提高空间光调制器和线性光调制器预训练效率的关键技术。该方法利用低精度表示进行前向和后向传播,同时保持用于更新的高精度权重。例如,(Micikevicius等人,2018年)推出了自动混合精度(AMP),最初以32位浮点(FP32)精度保存权重的主副本,同时以16位浮点(FP16)精度执行算术运算。然而,最近的工作(Rae等人,2021)由于其有限的数值范围而观察到了精度损失。为了解决这个问题,(Burgess等人,2019年)提出了Brain Floating Point(BFLOAT16),提供了比FP16更大的动态范围和更多的指数位。与FP16相比,BFLOAT16已经证明了上级的训练性能和表示准确性。现代GPU架构通过专门的张量内核进一步提升了混合精度功能。例如,虽然前几代支持FP16和BFLOAT16,但NVIDIA最新的Hopper架构引入了对8位浮点(FP8)精度的支持(Luo等人),从而使得大规模语言模型具有更高的计算效率。
为了补充这些混合精度方法,采用各种优化和稳定性技术来防止模型崩溃,并进一步提高SLM和LLM的训练效率。虽然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)优化器是常用的,但像Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024 b),以提高培训速度和效率。为了进一步稳定训练,梯度裁剪(Zhang et al.,2020年)被广泛用于防止爆炸梯度。此外,谨慎的初始化策略可以为模型训练提供一个良好的起点。这些组合技术旨在实现最佳的训练效率,保持数值稳定性,并产生更强大和更强大的语言模型。
为了解决预训练阶段的计算需求,语言模型通常在多个机器节点上进行预训练,有效地利用老化的分布式计算资源。为此,已经开发了几种系统级优化技术。零冗余数据冗余主义(ZeRO)(Rajbhandari等人,2020)提供了三个渐进的优化阶段,每个阶段在设备上划分更多的训练状态:ZeRO-1划分优化器状态,ZeRO-2添加梯度划分,ZeRO-3进一步划分模型参数。PyTorch的全分片数据并行(FSDP)(Zhao等人,2023 b)实现类似的概念。这些并行技术支持更大批量的训练,显著提高了SLM和LLM的效率和可扩展性。
3.2 Fine-tuning Techniques
对较小的特定任务数据集进行微调,使LLM能够利用在预培训期间获得的知识,使他们能够在专门的任务或领域中脱颖而出。微调技术旨在解决有限的计算资源、数据质量、可用性和鲁棒性等挑战,确保在无需大量重新培训的情况下有效适应新任务。
3.2.1 Parameter-Efficient Fine-Tuning
参数高效微调(PEFT)可更新一小部分参数或添加轻量级模块,从而使预训练模型的大部分参数保持不变。该方法减少了SLM微调过程中的计算成本,保留了模型的知识,减少了过拟合,并提高了灵活性。LoRA使用低秩分解(Hu等人,2021)、快速调谐(Lester等人,2021)将可学习的提示插入到输入中,以及Llama-Adapter(Zhang等人,2023 b; Gao等人,2023年)在LLaMA的注意力区块中加入提示。动态适配器(Kong等人,2024; Feng等人,2024年; Gou等人,2023; Liu等人,2023 b; Luo等人,2024 b)自动地将多个适配器组合为专家混合模型以实现多任务处理并防止遗忘(Han等人,2024年; Yang等人,2024年)的报告。
3.2.2 Data Augmentation
数据增强增加了训练数据的复杂性、多样性和质量,从而提高了下游任务的泛化能力和性能。8月GPT(Dai等人,2023)使用ChatGPT对训练样本进行重组。Evol-Instruct(Xu等人,2023)使用多步修订来生成具有增加的复杂性的多样化的开放域指令。反射调谐(Li等人,2023 a,2024 a)通过基于预定义的标准使用GPT 4来精炼指令和响应两者,增强了用于指令调谐的数据质量和响应一致性。FANNO(Zhu等人,2024)通过检索增强生成结合外部知识源来增强指令并生成响应。LLM 2LLM(Lee等人,2024 b)在训练期间基于对训练数据的模型预测生成更多硬样本。当训练数据有限时,数据增强对于合成新数据也是有效的,例如对于低资源语言(怀特豪斯等人,2023)、医学和临床应用(Chintagunta等人,2021)和隐私敏感数据(Song等人,2024),使模型能够更好地泛化,并在约束环境中表现得更稳健。
4 Model Compression Techniques
模型压缩技术专注于降低大型预训练语言模型的大小和复杂性,同时保持其性能。因此,这些方法是从LLM导出SLM的关键方法。在本节中,我们提出了一个模型压缩的分类法,根据它们是否执行修剪(4.1节),量化(4.2节)或知识蒸馏(4.3节)对这些技术进行分类。
4.1 Pruning Techniques
权重修剪是一种模型优化技术,它减少了参数的数量,以提高计算效率和降低内存使用率,同时保持性能水平。我们区分两种主要的修剪方法:非结构化修剪和结构化修剪。
非结构化修剪删除不太重要的个体权重,提供细粒度控制和灵活性,以减少模型大小。例如,为了在大型语言模型上执行不规则修剪,SparseGPT(Frantar和Alistarh,2023)将修剪任务重新制定为稀疏回归问题,使用逐层近似回归求解器优化剩余和修剪的权重。SparseGPT可以有效地处理OPT-175 B和BLOOM-176 B等大规模模型。此外,(Boža,2024)集成了ADMM(Boyd等人,2011)算法进行权重更新,以进一步减轻修剪错误。Wanda(Sun等人,2023)在修剪过程期间将权重和激活两者都纳入考虑,并且消除了权重更新的需要。n:m修剪策略(Zhou等人,2021)通过从每m个权重中精确修剪n个权重,将非结构化修剪引入模型加速,平衡修剪灵活性和计算效率,以实现显著的加速。NVIDIA的TensorRT利用这种稀疏模式来优化内存访问并减少计算负载,从而加速GPU上的推理,特别是像A100这样的硬件。值得注意的是,非结构化修剪通常会导致稀疏矩阵,需要专门的硬件或算法来最大限度地提高计算效益(Frantar和Alistarh,2023)。
结构化修剪(Wang等人,2020 b; Santacroce等人,2023年; Ma等人,2023年; Tao等人,2023年; Xia等人,2024; Kurti 'c等人,2024)旨在通过以结构化的方式移除参数组来压缩LLM,同时保持性能,这使得能够实现更有效的硬件实现。这种方法的一个主要方向涉及模型中神经元的稀疏性。例如,Li等人(2023 b)观察到前馈网络中普遍存在的稀疏性。Liu等人(2023 e)提出使用小型神经网络进行基于输入的动态修剪,称为"上下文稀疏性"。Mirzadeh等人(2024)将预训练模型中的激活函数更改为ReLU和微调,以提高激活稀疏性。
最近的工作还解决了Transformer架构中的冗余以实现GPU存储器使用的减少和速度的提高(Michel等人,2019年; Voita等人,2019年; Ge等人,2024年)的报告。例如,Sajjad等人(2023年); Xia等人(2022年)研究了有效结构化剪枝的层冗余。我们还强调了依赖于输入的修剪方法,如上下文稀疏性(Liu等人,2023 e)和FastGen(Ge等人,2024),这应该与优化计算和存储器的高效实现的挑战沿着考虑。附录A提供了有关修剪技术的进一步讨论。
4.2 Quantization
量化被广泛用于压缩具有大量参数的LLM。GPTQ(Frantar等人,2022)专注于逐层仅加权量化,使用逆Hessian矩阵来最小化重构误差。为了充分利用快速整数矩阵乘法的好处,需要更多的量化方法(Liu等人,2023 a; Dettmers等人,2022 b; Kim等人,2023; Xiao等人,2023年;姚等人,2022; Lin等人,2024; Liu等人,2023 d,2024 d,2023 c; Shao等人,2023年),这两个权重和激活越来越多地被采用的LLM。AWQ(Lin等人,2024)和ZeroQuant(Yao等人,2022)考虑激活以评估权重的重要性,从而实现对权重量化的更有效的优化。此外,对于K/V高速缓存量化(Hooper等人,2024; Liu等人,2024 f; Yue等人,2024),键值缓存被专门量化,以实现有效的长序列长度推断。
激活量化的另一个挑战在于落在典型激活分布之外的离群值。SmoothQuant(肖等人,2023)通过将量化难度从激活迁移到权重来平滑激活离群值。SpinQuant(刘等人,2024 d)引入了旋转矩阵以将离群值变换到新的空间中。近来,量化感知训练(QAT)方法,诸如LLM-QAT(Liu等人,2023 d)和EdgeQAT(Shen等人,2024 b),因其强劲的表现而受到关注.两种方法均采用了浮动蒸馏模型来校正定量误差。我们还注意到最近工作(Shen等人,2024 a,B; Zeng等人,2024),其在移动的设备和FPGA上实现了量化的LLM,以证明LLM的权重和激活量化的有效性和效率。
4.3 Knowledge Distillation Techniques
在其经典形式中,知识蒸馏(欣顿et al.,2015)涉及到训练一个高效的模型,称为"学生",来复制一个更大、更复杂的模型,称为"老师"的行为。在本节中,我们将重点讨论从一个或多个白盒教师语言模型到目标学生语言模型的提炼策略。Babyllama(Timiryasov和Tastet,2023 b)是第一个使用Llama模型作为教师开发紧凑的58 M参数语言模型的人。这项工作的一个关键发现是,在相同的数据集上,从一个健壮的教师那里提炼出来的内容可以胜过传统的预训练。类似地,(Gu等人,2024)引入了蒸馏损失的修改,这使得学生模型能够产生具有改进的校准和更低的暴露偏倚的更好质量的响应。序列级蒸馏损失也可以通过使用f-散度的广义形式来改善,2023年)的报告。Liang et al.(2023)通过使用任务感知过滤器(task-aware filter)扩展了语言模型的分层提取策略,该过滤器仅从教师那里提取任务特定的知识。最近的工作(Wan等人,2024 a,B)示出了多个语言模型可以作为教师被融合,以便通过策略性地合并它们的输出概率分布来将知识提取到更小的语言模型中。
语言模型的知识蒸馏中的一个问题是,蒸馏策略主要在以下情况下有效:(1)教师和学生语言模型共享相同的标记器,以及(2)教师的预训练数据可用。Boeal等人(2024)通过引入受最佳运输文献启发的通用logit蒸馏损失来解决这个问题。通常,蒸馏也与修剪技术相结合,以创建更小的语言模型。例如,(Sreenivas等人,2024年; Muralidharan等人,2024)表明,修剪大型语言模型的迭代步骤,然后用蒸馏损失进行再训练,可以实现强大的较小模型。
最近的进展已经探索了超越传统标签蒸馏的方法,通过在蒸馏过程中引入额外的监督来创建更小的语言模型。Hsieh等人(2023)发现,在蒸馏过程中使用"基本原理"作为额外的监督来源,使其更有效地利用样品。此外,作者发现,蒸馏模型优于常用的NLI,常识QA和算术推理基准的大型语言模型。同样,(Dai et al.,2024; Magister等人,2023年; Ho等人,2023年; Fu等人,2023)将推理链从较大的语言模型沿着标签信息提取到较小的语言模型。这种蒸馏模型已被证明具有改进的算术,多步数学,符号和常识推理能力。
5 Evaluation
表2列出了不同的评估设置沿着及其相应的SLM数据集和指标。在本节中,我们将研究如何专门设计不同的数据集和评估指标来评估SLM。这些评价组成部分是根据它们所针对的可持续土地管理的制约因素来组织的。
5.1 Datasets
表2概述了通常用于在各种环境中预训练和评估SLM的数据集。这些数据集提供了不同的上下文示例,使模型能够在不同的学习环境中有效地泛化。
Efficient Inference
此设置要求模型尽可能快地生成输出,具有最小的延迟和高吞吐量。这种设置的评估数据集通常侧重于需要快速响应时间的任务,例如问答,文本分类和自然语言理解。为此,用于该设置的一些示例评估数据集可以包括SuperGLUE(Sarlin等人,2020)、SQuAD(Rajpurkar等人,2016)、TriviaQA(Joshi等人,2017),CoQA(Reddy等人,2019),自然问题(NQ)(Kwiatkowski等人,2019),以及更多(Chang et al.,2024),涵盖各种需要更快响应时间的任务。
Privacy-preserving
隐私保护数据集在支持SLM开发的同时保护敏感信息方面发挥着重要作用。"诸如PrivacyGLUE(Shankar等人,2023)将差别隐私技术应用于诸如情感分析的常见任务。匿名数据集,如MIMIC(约翰逊等人,2020)和N2C2数据集包含用于医疗任务的去识别的临床记录,保护个人健康信息。此外,LEAF等联合数据集允许数据在设备间保持分布,通过联合学习框架支持设计隐私。
TinyML and On-device
在这些环境中,重点是在资源高度受限的环境中部署SLM。诸如TinyBERT(Jiao等人,2020)和OpenOrca(Lian等人,2023年)通过在为此类环境量身定制的策划数据集上对SLM进行培训和评估,发挥着关键作用。TinyBERT是BERT的精简版本,针对大小和速度进行了优化,使其适用于具有最小延迟要求的设备上应用。类似地,像OpenOrca这样的子集提供了有用的数据集,可以平衡性能和资源约束,支持开发小型高效的模型,这些模型可以部署在低功耗设备上,而不会牺牲准确性。
5.2 Metrics
表2列出了在不同环境下评估SLM的关键指标。评估指标是根据特定的约束条件组织的。
Latency
用于评估等待时间的两个关键度量是推断时间(Narayanan等人,2023)和吞吐量(Arora等人,2024年)的报告。推理时间衡量模型处理输入和生成输出的速度,这对于需要即时反馈的面向用户的应用程序至关重要。另一方面,吞吐量评估模型在给定时间段内可以处理的令牌或样本的数量,这使得它特别适用于大规模任务或时间敏感型应用程序。
Memory
在内存受限的环境中部署模型时,内存效率成为首要考虑因素。例如峰值存储器使用(Lee等人,2024a)捕获模型在推理期间消耗的最大内存量。类似地,存储器占用和压缩比(Cao等人,2024)用于衡量模型的紧凑程度以及所应用的压缩技术的效率,使模型能够在内存限制内运行而不会牺牲性能。
Privacy
隐私预算(Yu等人,2024),一个植根于差异隐私的措施,量化了模型在训练和推理过程中保护敏感信息的能力。除此之外,噪音水平(Havrilla等人,2024)通过评估添加了多少噪声来确保隐私,同时保持模型的性能,来衡量隐私和准确性之间的权衡。
Energy Optimization
能量效率比(Stojkovic等人,2024 b)评估了相对于模型整体性能的能源使用情况,从而深入了解可持续土地管理在实践中的能源密集程度。其他度量,诸如热效率和空闲功耗(Patel等人,2024),测量模型在主动处理任务或空闲时消耗的能量,这对于在嵌入式系统或移动的设备等能量受限环境中的长期部署至关重要。
6 Applications
在本节中,我们考虑SLM的应用,即翻译和自动完成等特定用例。
6.1 Real-Time Interaction
GPT-4 o于2024年5月发布,可端到端处理文本、视觉和音频输入,比GPT-4 Turbo(OpenAI,2024 b)更快。这次演示涉及到人类对话风格的反应。LLaMA-Omni联合收割机语音编码器、适配器、LLM和流式解码器,以基于LLaMA-3-8B-Instruct(Fang等人,2024年)的报告。情感全呈现语音助手(EMOVA)采用LLaMA-3.1-8B作为端到端语音模型,可以根据用户的请求生成诗歌和描述图像。Google Deepmind的Project Astra使用Gemini来处理来自智能手机或眼镜的音频和视频信息,并对数学问题和记忆物体序列等问题做出响应(Deepmind,2024)。
6.2 Content Generation and Processing
LLMR使用混合现实中的LLM来生成和修改3D场景。它结合了几种角色中使用的语言模型--场景分析器GPT,用于总结对象并提供颜色等更多细节;技能库GPT,用于确定完成用户请求所需的内容;生成器GPT,用于为请求生成代码;以及检查器GPT,用于评估其代码(Torre等人,2024年)的报告。DreamCodeVR通过代码生成帮助用户在Unity引擎中编辑应用程序(Giunchi等人,2024年; Juliani等人,2020年)的报告。这样就允许用户编辑VR程序,而不需要丰富的编程知识。
6.3 Edge Inference and Privacy
即使MobileLLM在各种聊天基准上有所改进且在API调用方面与LLaMA-2- 7 B表现相当时,2024年e月)。Apple Intelligence应用3B参数模型来执行广泛任务的设备上推断,例如文本和通知摘要、图像和表情符号生成以及XCode的代码完成(Gunter等人,2024年;研究,2024年)。设备上的推断减少了通过到第一次生成令牌的时间来测量的等待时间(Hu等人,2024年,任浙江乡试第一名。HuatuoGPT是一种用于医学对话的领域适应性LLM,而BioMistral是一种为生物医学工作量身定制的LLM(Zhang等人,2023 a; Labrak等人,2024年)的报告。与医学相关的应用可能需要遵守严格的隐私法规,这是未来工作的一个有希望的领域。使用GeminiNano的TalkBack通过描述和标注图像以及在Android设备上运行来帮助盲人和低视力人群(团队,2024 b)。设备上的推理使得该技术无需互联网连接即可使用。
专家混合可以通过使用选通网络在推理时间期间仅使用层的子集来降低推理成本(Shazeer等人,(2017年版)。Google的GLaM使用专家的混合(Du等人,2022),但为1.2T参数型号。EdgeMoE使用Nvidia Jetson TX 2和Raspberry Pi 4 B将专家误解扩展到边缘计算,后一种设备仅支持CPU(Sarkar等人,2023年)的报告。实验发现,大多数权值对最终计算的贡献很小,在此基础上,对权值进行压缩,并提前预测相关专家。
7 Open Problems
在本节中,我们将讨论尚未解决的问题,并强调未来工作的重要领域。幻觉和偏见是SLM和LLM共同关注的问题(第7.1和7.2节)。在第7.3节中,我们讨论了在推理过程中对能量效率的需求增加。最后,我们在第7.4节中研究了SLM的隐私风险。
7.1 Hallucination
LLM的一个普遍问题是幻觉,即与某些来源相关的内容是无意义的或不真实的(OpenAI,2024 a)。OpenAI(2024 a)提出,随着用户对模型的依赖程度增加,幻觉造成的伤害可能会增加。幻觉可以分为两大类:真实性和忠实性(相关性)。随着幻觉的真实性,生成与可证实的事实不一致。在忠实幻觉中,生成与用户查询缺乏相关性(Huang等人,2023年)的报告。HallusionBench是视觉语言模型中图像-上下文推理的基准,它发现较大的尺寸可以减少幻觉(Guan等人,2024年)的报告。对琥珀色幻觉基准的分析发现幻觉的类型随着Minigpt-4中参数计数的变化而变化(Wang等人,2024年)的报告。然而,发现对于LLaMA系列模型,偏差随着参数计数而增加(Zhao等人,第2023条a款)。未来的工作可能不仅需要考虑SLM中幻觉的总体变化,还需要考虑模型大小对幻觉类型和严重程度的影响。
7.2 Biases
已经发现语言模型再现了训练数据中存在的偏差(Brown等人,2020年; OpenAI,2024 a; Touvron等人,第2023条a款)。
Measuring Bias
用于测量偏差的方法例如用于问答的偏差基准(BBQ)(Parrish等人,2022)、实际毒性提示(Gehman等人,2020)和众包刻板印象对基准测试(CrowSPairs)(Nangia等人,2020年)的报告。
Influence of Parameter Count
(Touvron等人,2023 a)发现,较大的LLaMA模型在RealToxicityPrompts上显示出测量偏倚增加。(Zhao例如,2023 a)用StereoSet(Nadeem等人,2021)和它们的度量GPTBIAS,GPTBIAS使用GPT-4将响应分类为有偏或无偏。对于可比较的模型尺寸,LLaMA-2的测量偏倚小于前一代(Touvron等人,第2023条c款)。
7.3 Inference-time Energy Use
能源效率是SLM的重中之重,特别是在电池供电设备上使用时。Husom等人(2024)发现,使用MELODI基准测试,架构显著影响功耗。仅CPU的推理通常比GPU效率低,笔记本电脑需要更多的能量进行推理。作者发现响应令牌长度是最有效的能源使用预测,这表明更简洁的响应可以帮助延长电池寿命。Stojkovic等人(2024a)发现,能源使用可以减少约20
7.4 Data Privacy
隐私问题可以大致分为三类:训练数据、推理时使用的系统提示和用户查询。查询隐私在SLM中尤其重要。
Training Data
Li等人(2024b)讨论了培训和系统提示泄漏。作者发现训练数据泄露的风险比他们对Pythia模型系列的效用测量增加得更快(Biderman等人,2023年)的报告。他们还发现,接近预训练结束时的数据更容易提取,注意力层是一个可能的原因。
System Prompt
Liu等人(2024 c)将未经授权检索系统提示描述为提示泄漏,将提示用于非预期目的描述为提示滥用。他们给出了一个例子,得到一个提示,旨在重新措辞用户查询生成代码,导致使用Pear AI的意外成本。
Inference-time Data
与训练数据和系统提示的泄漏不同,这主要影响模型的最终用户。2024年6月,苹果宣布将语言模型应用于数字助理Siri(Research,2024)。在数字助理的背景下,SLM可能需要与用户数据(如位置历史或受保护的健康信息)进行交互。如果这些数据被用来训练或保护模型不被滥用,用户可能会面临外部性。现有文献有限。
8 Conclusion
由于SLM在各种设备和环境中的效率和适用性,SLM的重要性日益增加,本文对SLM进行了调查,包括模型架构,训练技术和用于优化SLM的模型压缩技术。我们还介绍了SLM评估指标的直观分类,并总结了各种重要的设置和应用程序。此外,我们总结了用于SLM的训练和基准数据集。最后,我们强调了仍然有待解决的根本挑战和公开问题。我们希望这项调查能成为研究人员和从业人员的宝贵资源。推动小型但强大的语言模型的下一个进步。
9 Limitations
虽然可持续土地管理带来了广泛的好处,但也必须考虑到风险和局限性。幻觉(在第7.1节中讨论)和社会偏见的强化(在第7.2节中讨论)是广泛认识到的大型语言模型的风险。虽然已经进行了研究来衡量和减少这些行为,但它们尚未得到充分缓解。Utama等人(2020)引入了一个框架来减少自我偏见,而没有测试时已知的特定偏见。随着模型能力的普遍提高,这种方法可能会变得更加有效。然而,研究人员并非主要来自的群体所特有的风险可能仍然没有被认识到。
以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!
如有侵权,请联系我删除。xingyezn@163.com