论文速读| A Survey on Data Synthesis and Augmentation for Large Language Models

论文地址:https://arxiv.org/abs/2410.12896v1

bib引用:

bash 复制代码
@misc{wang2024surveydatasynthesisaugmentation,
      title={A Survey on Data Synthesis and Augmentation for Large Language Models}, 
      author={Ke Wang and Jiahui Zhu and Minjie Ren and Zeming Liu and Shiwei Li and Zongye Zhang and Chenkai Zhang and Xiaoyu Wu and Qiqi Zhan and Qingjie Liu and Yunhong Wang},
      year={2024},
      eprint={2410.12896},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2410.12896}, 
}

主要内容

综述大语言模型(LLMs)的数据合成与增强技术,涵盖其在LLMs生命周期各阶段和核心功能中的应用,讨论面临的挑战并展望未来方向。

  1. 研究背景
    • LLMs发展与数据需求:LLMs在多领域取得显著成果,其性能依赖大量高质量数据。但高质量数据增长缓慢,获取成本高且存在隐私问题,传统数据合成与增强技术有局限性,因此LLMs数据合成与增强技术愈发重要。
    • 研究目的与贡献:首次全面综述该领域技术,涵盖LLMs全生命周期和核心功能;引入新分类框架,从生命周期和核心功能视角分类研究;识别挑战,探索未来方向;维护资源库支持研究。
  2. 数据合成与增强技术分类 【通用模型蒸馏、领域模型蒸馏、Self-Improvement】
    • 数据增强:通过变换原始数据增加多样性和数量,分为数据标注、数据重构和协同标注。数据标注利用LLMs标注未标记数据;数据重构将现有数据转换为多种形式;协同标注是人和LLMs共同标注数据。
    • 数据合成 :从无到有或基于生成模型创建新数据,包括通用模型蒸馏领域模型蒸馏模型自我改进。通用模型蒸馏利用强大模型生成数据提升弱模型;领域模型蒸馏针对特定领域生成数据;模型自我改进是模型生成高质量数据提升自身能力。
  3. LLMs全生命周期中的应用
    • 数据准备:旨在生成高质量多样数据。通用模型蒸馏通过从种子合成、合成推理步骤等方式生成数据;数据增强通过数据标注、重构等方法处理现有数据。
    • 预训练 :为LLMs提供丰富数据。模型自我改进中LLM生成数据预训练自身;通用模型蒸馏 利用强大模型蒸馏高质量数据;数据增强通过数据重构非LLMs驱动方法扩充数据集。
    • 微调 :用生成数据微调LLMs。模型自我改进 包括单步、迭代和多模态自我改进;通用模型蒸馏通过多种方式合成微调数据 ;数据增强通过数据标注和重构增强现有数据。
    • 指令调整:探索合成指令生成高质量数据。通用模型蒸馏用强LLM为弱LLM合成数据;模型自我改进由模型自身生成数据;数据增强通过数据标注、重构和协同标注提升模型性能。
    • 偏好对齐 :优化模型匹配人类偏好。通用模型蒸馏生成高质量偏好数据领域模型蒸馏 用特定数据集优化模型;模型自我改进通过反馈提升模型;数据增强通过多种技术增强模型对齐。
    • 应用:在数学、科学、代码、医疗、法律等领域,通过合成专业数据提升LLMs性能,如在数学领域生成推理语料库,在医疗领域生成对话样本。
  4. 功能视角下的技术分析
    • 理解功能:包括单模态和多模态理解。单模态理解通过生成指令示例等提升LLMs对文本的理解和标注能力;多模态理解利用LLMs生成跨模态数据提升模型对多模态信息的理解。
    • 逻辑功能:涵盖代码逻辑、数学逻辑和推理。通过选择训练样本、生成API增强代码等提升模型逻辑推理能力,在数学和推理任务中也有多种方法增强模型性能。
    • 记忆功能:分为程序记忆、语义记忆和情景记忆。程序记忆保存任务执行过程;语义记忆合成符号化数据保存知识;情景记忆记住与当前状态相关的上下文内容。
    • 生成功能:包括内容生成和检索增强生成。内容生成生成文本和多模态内容;检索增强生成整合外部知识生成准确内容。
  5. 挑战与局限
    • 合成与增强方法:依赖LLMs能力,影响模型训练评估,RLAIF存在不确定性和搜索复杂性,生成的逻辑路径不稳定。
    • 数据质量:生成数据多样性不足,存在长尾现象,可靠性难以保证,与真实数据分布不一致。
    • 影响:涉及隐私、安全和社会等方面问题,如隐私泄露、安全漏洞、法律纠纷和社会偏见等。
    • 应用任务:合成数据泛化和迁移能力有限,在不同应用场景效果差异大。
  6. 未来方向:多模态合成整合多种数据类型;实时合成实现动态生成;领域模型蒸馏利用领域模型提升LLMs性能;大规模合成满足大模型预训练需求;建立鲁棒质量评估指标;注重伦理考量和负责任的数据处理。

摘要

The success of Large Language Models (LLMs) is inherently linked to the availability of vast, diverse, and high-quality data for training and evaluation. However, the growth rate of high-quality data is significantly outpaced by the expansion of training datasets, leading to a looming data exhaustion crisis. This underscores the urgent need to enhance data efficiency and explore new data sources. In this context, synthetic data has emerged as a promising solution. Currently, data generation primarily consists of two major approaches: data augmentation and synthesis. This paper comprehensively reviews and summarizes data generation techniques throughout the lifecycle of LLMs, including data preparation, pre-training, fine-tuning, instruction-tuning, preference alignment, and applications. Furthermore, We discuss the current constraints faced by these methods and investigate potential pathways for future development and research. Our aspiration is to equip researchers with a clear understanding of these methodologies, enabling them to swiftly identify appropriate data generation strategies in the construction of LLMs, while providing valuable insights for future exploration.

大型语言模型 (LLM) 的成功与用于训练和评估的大量、多样化和高质量数据的可用性有着内在的联系。然而,训练数据集的扩展明显超过了高质量数据的增长率,导致迫在眉睫的数据耗尽危机。这凸显了提高数据效率和探索新数据源的迫切需求。在这种情况下,合成数据已成为一种很有前途的解决方案。目前,数据生成主要包括两种主要方法:数据增强和合成 。本文全面回顾和总结了 LLM 整个生命周期中的数据生成技术 ,包括数据准备、预训练、微调、指令调整、偏好对齐和应用。此外,我们讨论了这些方法当前面临的限制,并探讨了未来开发和研究的潜在途径。我们的愿望是让研究人员对这些方法有清晰的理解,使他们能够在构建 LLM 时迅速确定适当的数据生成策略,同时为未来的探索提供有价值的见解。

Introduction

近年来,大型语言模型 (LLM) 在各种任务中表现出无与伦比的能力 [9, 68, 166],牢固地确立了自己作为通用人工智能 (AI) 系统的支柱地位。这些模型在自然语言处理 [234, 262, 264]、计算机视觉 [100, 207, 239] 和其他研究领域 [36, 163, 229] 中取得了显著的改进,不断突破人工智能所能实现的界限。LLM 的成功在很大程度上归功于它们能够在大量数据中捕获复杂的模式和关系,使它们能够以非凡的熟练程度执行复杂的任务,例如自然语言推理 [39, 134]、视觉问答 [151, 158] 和视觉与语言导航 [125, 178]。

然而,LLM 的性能在很大程度上取决于它们所训练的数据的质量和数量 [2, 57, 58]。随着模型大小的指数级增长------现在达到数十亿甚至数万亿个参数 [105, 168, 268]------对大规模、多样化和高质量数据的需求不断增长,以确保跨各种任务和领域的稳健泛化。由于数据收集的高成本和隐私问题带来的问题,获取此类数据会带来重大挑战。此外,高质量数据的增长率远远落后于训练数据集的快速增长。如果这种趋势继续下去,可用数据最终将耗尽,这意味着如果数据效率没有显著提高或没有发现新的数据源,LLM 的增长可能会大大放缓。鉴于这些迫在眉睫的限制,数据合成和增强技术对于延长 LLM 的使用寿命和泛化变得至关重要。

  • 传统的数据合成和增强技术 [34, 98, 135, 194],如图像旋转、裁剪、翻转和基于规则的自然语言生成,已被广泛用于解决这些数据限制。尽管这些方法在一定程度上提高了数据多样性并解决了数据稀缺问题,但它们仍然难以完全捕获真实世界数据的复杂性 [55]、大规模生成数据 [233] 和防御对抗性示例[162],限制了它们训练LLM的有效性

为了克服这些挑战,研究人员越来越多地转向【面向 LLM 的数据合成和增强技术 】,认识到 LLM 能够从大型数据集中对复杂模式进行建模,并生成与真实世界分布密切相关的合成数据,同时引入有价值的变化 [37, 175, 260]。这些研究减少了对手动整理数据集的依赖,并能够生成高质量、多样化的数据,以满足 LLM 在其整个生命周期和功能中不断变化的需求。为了了解这些工作的广度,我们通过使用 "data synthesis"、"data augmentation" 和 "large models" 等关键词搜索 Google Scholar 来收集与面向 LLM 的数据合成和增强相关的论文。截至 2024 年 10 月,我们确定了 250 篇独特的出版物,涵盖不同的研究主题和地点。总结这些努力为仍然存在的进展和挑战提供了重要见解,为未来的研究奠定了基础。尽管取得了这些进步,但在面向 LLM 的数据合成和增强方面仍然存在一些关键挑战

  • 滥用合成数据会带来风险,尤其是在传播错误信息和引发对操纵公众舆论的道德担忧方面
  • 此外,在使 AI 模型与人类价值观保持一致时,合成数据通常会引入歧义 ,从而导致有偏见的结果
  • 评估 在合成数据上训练的模型也很复杂,因为传统基准可能无法完全捕捉这些数据的细微差别
  • 确保可靠性 是另一个问题,因为原始数据集中的偏差和不准确可能会在合成数据中持续存在,从而限制其跨领域的泛化。
  • 此外,LLM 的计算需求 ,以及处理不太常见的语言或新指令的挑战,使更广泛的应用程序变得复杂。
  • 最后,缺乏一个统一的框架来组织和比较学术界和工业界提出的方法,仍然是研究人员驾驭这个快速发展的领域的障碍。

本调查旨在通过全面概述面向 LLM 的数据合成和增强技术来解决这些差距。如图 2 所示,与之前的调查 [43, 140, 147, 214, 271] 不同,这些调查主要侧重于应用这些方法来支持 LLM 的特定下游任务或特定阶段,我们的工作强调面向 LLM 的技术在提高 LLM 在其生命周期和核心功能的各个阶段的整体性能方面的直接作用。与侧重于合成数据生成实践以应对数据稀缺和隐私等挑战的工作 [137] 相比,我们的调查通过对旨在全面提高 LLM 性能的方法进行分类,超越了实践指导。我们不仅研究了数据生成,还研究了这些技术如何在所有阶段和功能中增强 LLM,为推进 LLM 提供了一个更加集成、以数据为中心的框架。具体来说,我们从两个关键角度系统地回顾和分类现有研究:LLM 的生命周期(从预训练到微调和应用)及其核心功能(理解、逻辑、记忆、 和世代)。通过围绕这些双重视角进行讨论,我们对不同方法的发展、相互联系和实际应用提供了更清晰的见解。此外,我们确定关键挑战,探索新兴的研究方向,并强调可能通过以数据为中心的方法进一步推动 LLM 绩效进步的潜在突破。

图 2:关于数据合成和增强技术的现有调查与我们的工作之间的比较。以前的调查主要集中在基于 LLM 的数据合成和增强方法上,旨在支持下游任务。相比之下,我们的工作强调面向 LLM 的数据合成和增强,系统地涵盖 LLM 的整个生命周期------从数据准备到应用程序------并解决 LLM 的核心功能,例如理解和生成,最终目标是通过以数据为中心的技术改进 LLM 本身。

通过全面概述面向 LLM 的数据合成和增强方法,本调查旨在阐明该领域的现状,并启发未来的研究方向,这些方向可以通过数据合成和增强方法进一步增强 LLM 能力。

我们将本调查的其余部分组织如下:第 2 节对面向 LLM 的数据合成和增强的主要领域进行了分类,并概述了基础技术。第 3 节从 LLM 的整个生命周期的角度讨论了当前面向 LLM 的数据合成和增强方法,详细介绍了这些技术如何在模型开发的不同阶段使用。在第 4 节中,我们从核心 LLM 功能的角度回顾了这些方法,探讨了数据合成和增强如何增强关键能力,如理解、逻辑、记忆和生成。第 5 节深入探讨了面向 LLM 的数据合成和增强的评估策略,解决了基准、评估指标以及用于评估和比较现有方法有效性的排行榜。最后,第 6 节提供了对面向 LLM 的数据合成和增强的挑战和新兴趋势的见解,为未来的研究方向提供了建议,这些方向可以通过数据合成和增强方法为 LLM 的持续发展做出贡献。

图 3:本次调查的主要内容流和分类。

图 4:大型模型数据合成和增强技术开发的进化步骤图示。

2. Taxonomy

数据生成方法在解决数据稀缺和不平衡问题方面发挥着关键作用,从而提高模型性能和泛化。如图 4 所示,我们总结了近年来数据增强和合成技术的发展和演变。本节主要介绍当前数据生成方法的分类,区分数据增强和数据合成,前者通过转换增强现有数据样本,后者从头开始或基于生成模型创建全新的样本。这两种方法获取数据的方法不同,但旨在扩展数据集。此外,数据增强和合成方法可以从多个维度分为子类。每种方法都有其独特的优势和应用,使研究人员能够根据特定需求和目标定制其数据生成策略。

2.1. 数据增强

数据增强是一种从数据到数据的生成方法,通常涉及处理原始数据以增加其多样性和数量,而不会显着改变其基本特征。数据增强中使用的技术旨在通过转换或扰动来提高现有数据样本的丰富性。在不同模式中,数据增强技术通常表现出相似之处。例如,在图像数据中,增强操作包括马赛克[90],从两个现有图像-文本对中插入图像和连接文本序列。新生成的图像-文本对中的语义关系保持一致且匹配。最近,在快速发展的 LLM 领域中,数据增强已成为通过训练示例的多样化来提高模型性能的基石,从而避免了广泛额外数据收集的必要性。从以数据为中心的角度 出发,我们将现有的数据增强研究系统地分为三个不同的类别:
数据标注 [3, 63, 94, 136, 198, 275]、数据重组 [45, 51, 143, 237] 和共同注释[11, 43, 116]。

2.1.1. 数据标注 DataLabeling

数据标注努力利用 LLM 的全面语言理解功能来注释大量未标记的数据集。这种方法在拥有大量未标记数据语料库的领域特别有益,包括跨语言处理和多模态学习等领域[3, 63, 275],其中注释的自动化可以显着加快数据准备过程。最近的研究研究了 LLM(例如 GPT-4)在标记政治 Twitter 上的零镜头注释能力[198]。此外,Khan et al. [94] 通过利用 SelTDA 框架从未标记的图像生成伪标签数据,专注于视觉问答 (VQA) 任务。

2.1.2. 数据重组 Data Revolution

数据重组涉及将现有数据转换和重组为更广泛的变体,从而促进更细粒度的数据增强[45, 51]。这种方法旨在通过多样化但相关的示例来丰富训练环境,从而提高模型的鲁棒性和泛化能力。通常使用旋转 [92]、颜色通道变换 [64] 和同义词替换 [95] 等经典方法。最近,也出现了利用 LLM 的方法。例如,Chen 等人[27] 提出了 Disco,这是一种利用 LLM 生成大规模、高质量反事实数据的方法。

2.1.3. 共同标注 Co-Annotation

共同注释是指人类注释者和 LLM 在注释过程中的协作努力[11]。通过集成两种注释方法的优势,co-annotation 不仅可以降低注释成本,还可以同时提高注释性能,从而促进一种更高效和有效的数据注释方法。Li 等人[116] 介绍了 CoAnnotating,这是一个基于对 LLM 注释不确定性的评估,战略性地将注释数据点分配给人类或 LLM。

2.2. 数据合成 Data Synthsis

另一方面,数据合成旨在从头开始或基于生成模型创建全新的数据,这类似于真实数据的分发。近年来,随着生成式 AI 的爆炸式增长和进步[13, 41, 42, 78, 139, 161, 169],合成数据的质量和生成效率取得了重大进步。

根据 LM 的需求,本文将数据合成方法分为三种主要类型:通用模型蒸馏 [22, 53, 120, 263, 266]、**域模型蒸馏[**108, 145, 146, 215] 和模型自我提升[54, 150, 210, 248]。

2.2.1. 通用模型蒸馏

其中,通用模型蒸馏涉及利用强大的通用模型,通常具有更大的参数和卓越的性能,例如 StableVicuna、ChatGPT 和 GPT-4,以生成可以增强较弱模型能力的数据集。有多种方法可以使用这些强大的模型,例如使用预定义的模板生成小故事[53],并利用 LLM 本身来评估生成数据的质量。Phi-1 及其系列 [67, 120] 已经证明,通过利用 GPT-3.5 的全面生成教科书和练习,少量的高质量数据也可以训练出强大的模型。其他一些方法也通过生成指令数据集并在提高这些数据集的质量后微调模型来实现性能提升[22, 80, 196]。

2.2.2. 领域模型蒸馏

域模型蒸馏与为在特定域内生成数据而定制的模型的利用有关。当通用模型无法满足行业应用程序的特定需求时,这种方法通常是必要的。例如,在代码编程的上下文中,可以采用域模型蒸馏来生成针对特定编码任务的指令数据[146, 215]。在数学领域,Minerva[108] 和 DeepSeekMath[220] 等方法旨在生成数学问题的解决方案,同时确保其准确性和多样性。此外,行业数据领域通常存在障碍,例如数据规模有限以及数据在该域内的特定企业内无法访问。这些因素需要采用特定于域的模型,以有效解决这些场景带来的独特挑战。

2.2.3. Model self-improvement 模型自提升

模型自我提升是指模型生成更高质量数据以增强其能力的过程。例如,利用现有指令来调整模型并提示它以特定样式(如 Wikipedia 风格或 QA 风格)解释 Web 上的文档,可用于联合预训练 LLM 以完成真实和合成的释义任务[150]。Self-Instruct [210] 通过自动生成和提炼教学数据来增强 LM 本身,以最少的人工干预提高性能。

3. LLM全生命周期中的数据合成和增强【数据准备、预训练、微调、指令调整、偏好对齐和应用】

3.1. 数据准备

在数据准备阶段,数据合成和增强旨在生成多样化和高质量的数据集,用于 LLM 的训练,解决真实世界数据稀缺的挑战。根据第 2 节中讨论的分类法,我们将本小节分为一般模型蒸馏和数据增强。

3.1.1 通用模型蒸馏

这种方式旨在利用通用 LLM 的强大能力来提炼高质量的数据。根据方法和数据模态,我们进一步将通用模型蒸馏分为五类:从种子合成、合成推理步骤、可控合成、从头开始合成和合成多模态数据。

从种子合成。为了合成特定任务的数据集,用少量相关示例提示 LLM 可以有效地以低成本生成高质量的数据集。例如,为了研究"LLM 可以有多小才能实现某些功能",TinyStories[53] 是通过指示 LLM 生成故事来构建的,这些故事结合了从 1500 个基本单词中随机选择的三个单词,它可以用于训练和评估语言模型。基于收集到的大规模函数,Case2Code[180] 合并了 LLM 来为这些函数生成合适的输入,并利用代码解释器来计算它们相应的输出。由于单轮合成数据在数量和多样性方面可能存在不足,因此研究了迭代数据合成的方法。例如,Self-Instruct[210] 可以重复多次迭代,以积累大量的任务。在每次迭代中,系统会提示 LLM 从一个小种子集生成新指令,然后独立地为每个指令创建 input -output 实例。同样,Evol-Instruct[223] 可以进行多轮进行,以收集足够的数据集包含各种复杂性。在每一次演变中,都采用了深入和广泛的演变,以将基本指令增强为更复杂的指令或创新全新的指令。

综合推理步骤。为了增强 LLM 的推理能力,在数据合成过程中会产生额外的推理步骤。MMIQC[131] 中的合成问题-响应对是通过增强初始问题并添加额外的推理步骤来迭代构建的,而不会改变其内在的逻辑结构。同样,提出了一种有效的生成策略,其中要求 LLM 在问题生成和验证后综合思维链 (CoT) 答案[109]。基于通过 Self-Directed 生成问题 CoT 对,MathInstruct[244] 进一步补充了思维程序 (PoT) 基本原理以简化数学解决过程。

合成与可控性。为了控制合成数据的质量,对可控性数据合成技术进行了研究。在减少合成数据潜在偏差的目标驱动下,OSS-Instruct[215] 利用开源种子代码片段来提示 LLM 生成编码问题和相应的解决方案。种子片段提供了生成的可控性,并鼓励 LLM 合成各种编码问题。同样,Genie[236] 会提示LLM 替换为四个内容示例对,以生成合成示例以匹配提取的内容,而无需示例。此外,DIALOGIC[122] 以一些带注释的对话为基础,指导 GPT-3 以可控的方式合成带注释的对话,其中辅助生成器和时隙值匹配滤波器分别用于缓解 degeneration 和 over-generation 问题。

从头开始合成。另一种方法避免了对种子数据集的依赖,从头开始合成数据。例如,UltraChat[44] 由关于世界、创造和生成以及对现有材料的帮助问题组成,其中关于世界的问题要求 ChatGPT 从头开始生成元主题、子主题和关于概念的问题。由于对齐的 LLM 由于自回归的性质可以生成用户查询,因此 Magpie[227] 通过提示对齐的 LLM 使用预查询模板生成指令及其相应的响应来直接构建指令数据。生成器提示[19] 专注于从单个提示生成大型指令数据集,通过要求 LLM 生成一长串可能的选择并随机选择一个候选者来提高输出多样性。

合成多模态数据。与单模态类似,提示像 GPT 这样强大的 LLM 根据种子集合成数据也是多模态数据合成的最常用方法。例如,ShareGPT4V[21] 由 100K 个高质量字幕组成,这些字幕是通过采用特定于数据的提示来指导 GPT4-vision 生成用于监督微调的综合描述而生成的。此外,在 100k 高质量字幕上微调了替代字幕模型,以扩大数量的字幕进行预训练。考虑到 LLM 生成的跨模态指令可能过于简单的问题,ComVint[49] 在呈现具有可用注释的图像时,采用了包括综合、复杂化和重新表述的管道。与以前的数据合成方法不同,StableLlava[121] 同步合成图像和对话。该方法首先使用 ChatGPT 来制作图像生成提示并开发内容丰富的对话,随后利用 StabeDiffusion 从这些提示中合成图像。多模态数据也可以从头开始合成。为了从头开始创建图像和相应的指令,多模态自指令[263] 首先指示 LLM 构思一个原创的视觉概念。随后,它会生成详细的代码来可视化这个想法。合成所需的图像后,LLM 会自行指示针对视觉内容量身定制的多组高质量问答对。同样,在解释图表数字领域,ChartLlama[73] 最初利用 GPT-4 的功能,通过提供主题、分布和趋势等特定属性来生成图表数据。在此之后,GPT 进一步用于生成图表图形和相关的指令答案数据。AnyInstruct-108k[251] 由两阶段方法构建,包括生成基于文本的对话,其中包含来自元主题的多模态元素和文本到多模态的转换。此外,还有一些方法使 MLLM 能够合成数据而不是提示 GPT。Genixer[266] 是一个整体数据生成管道,由四个关键步骤组成,包括指令数据收集、指令模板设计、授权 MLLM 以及数据生成和筛选。

3.1.2 数据增强

数据增强旨在进一步处理现有数据以获得更多样化的高质量数据集。在本调查中,我们将现有的数据增强方法分为四组:数据标注、数据重组、共同注释和非 LLM 驱动。

数据标签。数据标注旨在利用 LLM 的语言理解能力来注释未标记的数据集[3, 63]。基于来自共和党和民主党政客的 500 条推文的平衡样本,ChatGPT-4 被用来注释政治派别[198]。结果表明,LLM 注释比人工分类器显示出更高的准确性和更低的偏差。为了应用于独特的注释任务,一种方法 [275] 从创建一个广义提示模板开始。然后使用此模板生成 ChatGPT 提示,旨在根据数据集的原始注释方法提取标签。同样,另一种方法涉及最初创建与参考对话内容紧密匹配的对话,随后提示 LLM 使用现有存储库中提供的相同注释模式来标记生成的对话[99]。此外,学者们还研究了使用附加信息提高 LLM 标记数据质量的方法。例如,FullAnno[74] 指示 LLM 获取图像的综合注释,并提示包括对象的类别和位置、区域描述和图像中的文本信息。在语音情感识别领域,一种方法[103]首先仅基于文本对样本进行注释。之后,它通过将音频特征和性别信息与文本数据集成来增强注释。此外,VQ-VAE 用于生成音频的 64 维离散表示,并将其提供给 LLM。

数据改革。数据改革试图将现有数据转换为更广泛的变体,它通常涉及利用提示工程来指导 LLM 生成重新格式化的数据。例如,TinyGSM[128] 是通过提示 LLM 从 GSM8K 生成问题变体,然后过滤掉低质量的实例来构建的。同样,GPT3Mix[237] 通过从选定的示例和有关数据集的元信息中构建特定于任务的提示,从 LLM 的生成中提取增强。数据改革也广泛应用于生成反事实增强数据。具体来说,CORE[45] 最初学习检索相关的文本摘录。在此之后,检索到的摘录以及说明和演示将作为提示提供给 GPT-3 以反事实地编辑输入文本。此外,DISCO[27] 首先使用语言处理工具将给定的任务实例分解为 span,然后采用 LLM 的提示工程和上下文学习来为这些实例过度生成一组不同的扰动。对于多模态,ALIA[51] 首先为每张图像生成标题,并使用 LLM 将标题总结成一个简短的域描述列表。然后使用这些描述通过 Stable Diffusion 生成训练数据的编辑。

共同注释。共同注释是指人类和 LLM 一起注释未标记数据的过程。例如,Toolcoder[259] 在提示将 ChatGPT 引导到注释工具增强的数据集中。为了解决注释者之间一致性低的问题,ChatGPT 被用来通过被确定为相关特征的短语和简短的解释来增强注释过程[11]。对将同一数据集中的数据分配给人类和 ChatGPT 的调查可以实现更高效、更准确的注释。具体来说,CoAnnotating[116] 框架通过计算 LLM 注释的不确定性级别,自动决定每个数据实例应该由人类还是由 LLM 进行注释。还有用于数据增强的迭代协同注释方法。例如,从包含所需对话描述和对话历史的任务提示开始,Dialgen[142] 首先提出一个候选子对话,随后由人工审阅者验证、编辑和注释生成的子对话,然后通过更新的提示请求继续到 LLM。该过程可以重复多次,直到对话完成。

非 LLM 驱动。某些方法不使用 LLM 来合成或筛选高质量数据。例如,AMPS[77] 是一个广泛而多样的数学预训练语料库,包含超过 500 万个使用 Mathematica 脚本生成的问题,基于 100 个精心设计的模块。在物理学领域,Mind's Eye[136] 利用计算物理引擎为 UTOPIA 多任务物理对齐数据集生成地面实况答案,旨在评估 LLM 理解基本物理定律的能力。此外,过滤和修剪策略用于数据增强。例如,Proof-Pile-2[6] 是一个广泛的数据集,其中包含 55B 数学和数学代码的代币,通过从公开可用的资源中过滤出高质量的数据来丰富。认识到合成训练数据中的大量冗余,提出了一种高效且可扩展的修剪策略[200],其中包括编码、降维、聚类和修剪。

3.2. 预训练

在预训练阶段,数据合成和增强可以为 LLM 提供丰富、多样、可控的训练数据,成本效益高,从而提高模型性能,减少偏差。我们还从三个角度讨论了现有的方法:模型自我完善、通用模型蒸馏和数据增强。

3.2.1 模型自我提升

在预训练阶段,模型自我提升是指通过 LLM 合成数据,并进一步利用合成数据对相同的 LLM 进行预训练。例如,VILA-2[54] 利用自我增强过程,其中当前轮次的 VILA 用于生成长而详细的字幕,并为下一轮预训练提供适当的提示选择和对话模板。

3.2.2 通用模型蒸馏

通用模型蒸馏表示使用具有强大能力的通用 LLM 来提取高质量数据。为了证明高质量数据在打破现有缩放定律方面的力量,phi-1[67] 在 "教科书质量 "的代码数据集上进行了预训练,这两个数据集都是用 GPT-3.5 合成生成的,也是从 Web 源代码中过滤的。遵循 phi-1 的方法,并将任务扩展到常识推理自然语言 Phi-1.5[120] 是结合 Phi-1 的训练数据和新创建的合成数据进行预训练的。受 TinyStories 的启发,TinyDialogues[56] 是通过提示 GPT-4 生成以不同年龄段的儿童为主要参与者的逼真对话而创建的。在 SciLitLLM[118] 的持续预训练阶段,Llama3-7B-Instruct 用于纠正 PDF 解析过程中引入的错误,然后在分类器上进行监督迁移学习,以从数据集中过滤掉低质量的文本。对于多模态,AnyGPT[251]在以多模态文本为中心的数据集上进行了预训练,是一种能够理解和生成不同模态的任意多模态语言模型。利用开源的文本到图像生成模型 GLIDE,已经证明合成数据显着有助于分类器学习,并为模型预训练带来巨大前景[76]。

3.2.3 数据增强

数据增强旨在进一步处理现有数据以获得更多样化的数据集。在预训练阶段,主要有两种方法:数据重组和非 LLMs 驱动的方法。

数据改革。数据改造对原始数据集进行转换,以获得具有多样性和质量的新数据集。例如,WRAP[150] 采用现成的指令调整模型来解释各种风格的 Web 文档,从而在真实和合成改写的组合上对 LLM 进行预训练。同样,BIO 数据集 bioR[276] 是通过使用 Llama 重写 100k 传记的合成数据集来构建的,使其接近现实生活中的传记风格。

非 LLM 驱动。其他方法在不使用 LLM 的情况下扩充原始数据集。例如,Code Llama 在 Proof-Pile-2 上进行了进一步的预训练,Proof-Pile-2 是一个由科学论文和 Web 数据组成的 55B 标记增强数据集,产生了 LLEMMA[6]。KMLM[133] 在海量多语言知识图谱三元组上进行了预训练,这些三元组是通过将结构化知识从知识图谱转换为顺序数据来构建的。为了解决数据稀缺的病态问题,提出了一种基于物理的建模框架[134],该框架生成大量合成数据以将 LLM 与物理一致的初始状态对齐。

3.3. 微调

在微调阶段,数据合成和增强是指使用生成的数据来微调 LLM。它有已经证明,生成的数据可以有效地促进 LLM 的微调[210, 223]。我们从三个角度讨论了现有的方法:模型自我完善、通用模型蒸馏和数据增强。

3.3.1 模型自我提升

模型自我提升方法使 LLM 能够通过反馈过程从其输出中学习,从而消除对外部支持的需求。根据该方法是否使用迭代自我提升和合成数据的模态,我们将现有的自我提升策略分为三类:单次自我提升、迭代自我提升和多模态自我提升。

单次自我提升。单次自我提升是指通过 LLM 合成数据,然后使用合成数据对同一 LLM 执行一次微调的过程。一类方法涉及向训练数据集补充信息。例如,一种方法[81] 涉及使用 LLM 通过思维链提示和自洽检查为未标记的问题创建"高置信度"的基本原理增强回答。基于对模型性能与监督数据具有对数线性关系的观察,拒绝采样微调 (RFT)[242] 利用 LLM 的功能生成和编译准确的推理轨迹作为增强数据集。同样,Self-Translate-Train[170] 利用 LLM 的翻译能力生成所需目标语言的合成训练数据集,然后使用这些自生成的数据进行微调。另一方面,另一类方法根据现有种子数据合成新样本。例如,CodeRL[104] 引入了一个 actorcritic 框架,该框架使用 LLM 作为 actor 网络来生成合成样本,而一个单独的神经网络用作 critic 模型来评估这些样本的质量。此外,Self-Instruct[210] 提示 LLM 生成新的指令和相应的实例,这些实例可用于 LLM 本身的指令调整。基于自我指导,代码 LlamaInstruct[174] 通过对专有教学数据和合成自我指导数据集的组合进行微调来增强,该数据集是通过提示 Llama 2 解决编码问题和提示 Code Llama 进行相应的单元测试和解决方案来制作的。

迭代自我提升。此外,为了提高合成数据的质量、多样性和数量,各种方法迭代合成数据集并不断微调 LLM改进的循环。为此,提出了一种自我提升策略[71],其中 LLM 生成自己的合成拼图解决方案对,这些拼图对在用于微调 LLM 本身之前经过过滤。此外,STaR[248] 通过使用 LLM 的基本原理生成能力构建了一个增强的数据集,并证明了模型未能解决的问题的真实答案。此外,ReST[66] 首先通过使用 LLM 生成多个输出预测来增强训练数据集,然后使用离线强化学习目标在过滤后的数据集上微调相同的 LLM。在 ReST 之后,ReST-EM[187] 避免在生成步骤中使用人工生成的输出来增强数据集,而是微调基本 LLM,而不是从改进步骤中的上一次迭代中获得的模型。此外,DeepSeek-Prover[? ] 始终对通过自动形式化、质量过滤和语句证明生成的合成数据进行微调,然后将更新的模型用于后续迭代。在 SPIN[26] 中,实现了一种自博弈策略,其中对 LLM 进行微调,以区分对手玩家(上一次迭代的 LLM)的反应与目标数据分布,从而迭代地将 LLM 与目标数据分布对齐。

3.3.2 通用模型蒸馏。

一般模型蒸馏表示从强大的 LLM 中提取高质量的微调数据。在本调查中,我们将现有的通用模型蒸馏方法分为五类:用种子合成、迭代合成数据、合成推理步骤、分类驱动合成和合成多模态数据。

与种子合成。从现有实例示例或数据种子合成数据是最常见的方法[17, 196, 215]。例如,Unnatural Instruction[80] 通过最初提供一个带有三个种子示例的语言模型来生成第四个种子示例来收集示例。然后,通过提示模型重新表述每条指令来扩展数据集。通过利用自聊天与 ChatGPT 生成多轮聊天语料,白泽[222] 通过参数高效的调优和带有反馈的自蒸馏获得。此外,CLINGEN[226] 利用临床知识提取来将提示情境化。该策略包括从知识图谱和 LLM 中创建临床主题,以及从 LLM 中提取写作风格建议。同样,华拓[204] 是一个基于 Llama 的模型,它使用生成的 QA 进行了 SFT,该 QA 是通过从知识图谱中提取知识实例并在 ChatGPT 的帮助下创建其他实例来合成的。此外,不可能Distillation[91] 通过利用释义接近和批评家引导的蒸馏来创建高质量的释义数据集,从而增强小型、低质量的语言模型。

迭代合成数据。为了构建具有多样性的高质量数据,一些方法构建了可以多次执行的框架。例如,WizardLM[223] 使用 Evol-Instruct 方法生成的 70k 合成数据进行微调,在高复杂度任务上取得了最先进的结果,并在其他指标上保持竞争力。Evol-Instruct 进一步适应代码域,进行了修改,包括改进进化指令、简化进化提示格式、合并代码调试和时空复杂性约束[146]。此外,LLM2LLM[107] 在初始数据集上微调学生模型,然后识别错误,并根据这些错误使用教师 LLM 的合成示例来增强训练数据。重复该过程,以在目标越来越有针对性的数据点上训练学生模型。

综合推理步骤。最近的研究集中在通过模仿学习来提高 LLM 的性能,利用大型基础模型 (LFM) 生成的输出进行绘制。但是,较小的语言模型倾向于模仿 LFM 的样式,而不是 LFM 的推理过程。为此,GAIR-Abel[28] 发现增强响应的结构显着影响整体性能,从问题的释义开始并继续进行分步解决方案的答案显示出比标准格式的答案更好的性能。此外,Orca[154] 在增强的查询-响应对上进行了解释调整,其中包含来自 GPT-4 的详细响应。该方法允许 Orca 从丰富的信号中学习,包括解释轨迹、分步思维过程和其他复杂的指令。在 Orca 2[152] 中,研究了各种推理技术,包括逐步、回忆后生成、回忆-推理-生成和直接回答,这赋予了模型更好的推理能力。此外,MAmmoTH[244]是一系列专为解决一般数学问题而量身定制的开源 LLM,在混合指令调优数据集 MathInstruct 上使用 CoT 和 PoT 基本原理进行了微调。

分类驱动的合成。上述方法主要基于从种子合成数据集,而最近的研究采用了另一种新颖的方法,通过分类学驱动的方法合成数据集。为了解决尾部现象的问题,LAB[191] 用分类驱动的方法取代了现有合成数据生成方法中的随机采样,以指导合成数据的采样。与 LAB 类似,GLAN[111] 利用半自动方法来合成大规模数据集,该方法使用人工策划的分类法从教师模型生成教学调整数据。此外,SciLitIns[118] 由一个三步管道构建,包括收集领域关键词的概率表、编制任务描述列表和提示 GPT-4o 生成。

合成多模态数据。通用模型蒸馏在多模态应用中也具有很大的潜力。例如,Visual instruction-tuning[130] 通过利用纯语言 GPT-4 生成多模态指令跟踪数据,将指令调整扩展到语言-图像多模态空间。通过在多模态合成数据上微调 LLaVA,ChartLlama[73]具有广泛的图表理解和生成功能。此外,还介绍了一种课程学习方法[110],该方法涉及首先微调 LLaVA 以对齐生物医学词汇,并使用 GPT-4 生成的指令跟踪数据继续训练模型。此外,ShareGPT4V-7B[21] 在 ShareGPT4V 数据集上进行了微调,并在各种多模态基准测试中表现出令人印象深刻的性能。此外,NExT-GPT[219] 利用模态切换指令调优 (MosIT) 方法,促使 GPT-4 基于模板对话示例在各种场景下生成多模态对话。

3.3.3 数据增强

数据增强涉及通过各种技术增强现有数据,以创建更广泛和多样化的数据集。在微调阶段,主要有两种方法:数据标注和数据改造。数据标签。数据标记表示为未标记的数据生成注释。例如,提出了一个管道[195],以使用 LLM 生成大量带有标签的合成数据,并进一步消除低质量或重复的样本。结果表明,与 LLM 的零镜头性能相比,该方法的有效性。此外,Llama-3-UltraMedical[258] 是通过对 UltraMedical 数据集进行监督微调获得的,其中包括用各种 LLM 的完成注释的指令,以及由 GPT-4 注释的偏好。对于多模态,SelTDA[94] 使用视觉语言模型和目标数据集来构建一个教师模型,该模型可以直接以图像为条件生成问答伪标签。

数据改革。数据改造是指将现有数据转换为更多样化的形式,从而增强数据。例如,Symbol tuning[213] 在上下文中呈现的 input-label 对上微调语言模型,其中自然语言标签被重新映射到任意符号。此外,DISC-MedLLM[10] 在 SFT 数据集上进行了微调,该数据集是通过利用医学知识图谱、重建现实世界的对话和改写人类指导的偏好来构建的。此外,MetaMath[238] 在 MetaMathQA 数据集上进行了微调,该数据集是通过 LLM 重写具有前向和后向推理路径的问题来构建的。此外,MathGenie[144] 由三个部分组成,包括迭代解决方案增强、问题回译和基于验证的解决方案过滤,以创建多样化和可靠的数据。此外,BianQueCorpus[25] 是通过收集现实世界的多轮健康对话,构建数据自动清洗流程,并使用 ChatGPT 打磨医生对多轮对话的建议而构建的。

Table 4: Data synthesis and augmentation in Instruction-Tuning. A dash (-) indicates no relevant content

3.4. 指令调优【(1) 通用模型蒸馏,(2) 模型自完善,(3) 数据增强】

在指令调优阶段,数据合成旨在探索合成指令或提示内容,以通过 LLM 生成 RECORDoFOLLOW 高质量数据。根据合成数据的方式,它们包括以下几类:(1) 通用模型蒸馏,(2) 模型自我完善,(3) 数据增强,如表 4 所示。

3.4.1 通用模型蒸馏【单模态综合、多模态综合】

为了获得多样化的数据,一种流行的方法采用更强的 LLM 来合成数据并执行针对较弱的 LLM 的指令调整 [80],包括单模态综合和多模态综合。

单模态。Alpaca [196] 首先通过 GPT-3.5 (text-davinci-003) 生成指令跟踪演示,然后微调 llama-7b 以创建可复制的指令跟踪模型。接下来,Alpagasus [22] 发现 Alpaca 使用的指令调优数据集包含许多不正确或不相关的低质量实例。作为回应,他们设计了一种质量过滤策略,利用 ChatGPT 等强大的 LLM 来自动识别和过滤掉低质量数据。结果表明,少量的高质量数据就足以训练性能更强的模型。基于 Alpaca,Vicuna [29] 从 ShareGPT.com 收集用户共享的对话,以构建开源聊天机器人。鉴于高复杂度指令的产生可能对人类构成挑战,WizardLM [223] 提出了一种 EvolInstruct 策略来重写和生成更复杂的指令。Evol-Instruct 使用 LLM 自动量产不同层次的各种指令,包括两种进化策略:深度进化和广度进化。

虽然上述模型通过 LLM 产生了丰富的数据,但它们往往缺乏 LLM 所表现出的推理和理解能力。为此,Orca [154] 和 Orca2 [152] 通过解释跟踪模仿更强的 LLM 的推理过程,以输出合成样本。与原版指令调优相比,Orca 利用系统指令通过详细的推理解释来增强查询-响应对。在 Orca 的基础上,Orca2 进一步引入了各种推理策略,例如步进和召回原因生成,以学习为每个任务确定最有效的解决方案策略。Orca2 通过收集 FLAN-v2 Collection [141]、55K Few-Shot 数据集、Math 数据集 [176] 和 2000 次医患对话来提炼合成数据集,创建谨慎的系统指令以实现谨慎推理。此外,白泽 [222] 提出了一种开源聊天模型,通过利用 ChatGPT 与自身进行对话,生成高质量的多轮对话语料。Baize 使用 Quora3 和 Stack Overflow4 中的问题作为种子,通过自助聊天生成 111.5k 对话。LongForm [96] 通过以下方式生成指令LLM 通过反向指令构建指令跟随文本数据集,提供了一种经济高效且快速的方法来执行指令调整和输出高质量的合成数据。为了微调指令以优化代码大型语言模型 (Code LLM),WizardCoder [146] 通过使 Evol-Instruct 方法适应代码域,增强了对代码 LLM 复杂指令的微调。WizardCoder 通过特定于代码的 Evol-Instruct [223] 生成复杂的代码指令集以改进 StarCoder [117] 模型。

多模态。多模态通过 LLM 生成跨模态数据 [50]。作为一种典型的方法,LLaVA [130] 是将指令调优扩展到语言-图像多模态领域的第一次尝试。它使用 ChatGPT 和 GPT-4 将图像-文本对转换为多模态指令跟踪数据,然后通过结合视觉编码器 CLIP [164] 和语言解码器 Vicuna [29] 对生成的教学视觉-语言数据进行微调。在此基础上,LLaVA-1.5 [129]、LLaVA-Plus [138]、LLaVA-Interactive [24] 和 LLaVA-Med [110] 进一步将 LLaVA 扩展到各种多模态任务,并设计了专门的提示模板以更好地进行微调。例如,LLaVA-Plus 通过将请求多模态工具及其执行结果的用户指令整合到 LLaVA 中,专用于人机 AI 交互会话中的工具和技能使用。LLaVA-Med 通过 GPT-4 指示来自字幕的指令遵循数据来捕获开放式对话语义,构建视觉语言对话助手来回答有关生物医学图像的问题。

3.4.2 模型自提升【单模态综合、多模态综合】

模型自我提升旨在从模型本身引导合成数据,包括单模态综合和多模态综合。
单模态 。此类别生成单模态数据,以通过 LLM 本身实现指令调整。例如,SelfInstruct [210] 提示现成的 GPT3 生成新指令和相应的实例。它通过利用自己生成的输出增强了 GPT3 遵循指令的能力。在回译方法的推动下,指令回传 [119] 从 Web 文档中人工编写的"响应"生成指令,而不是从指令中生成响应。它采用自我管理步骤来选择高质量的对并生成增强的指令-响应对。此外,SPIN [26] 设计了一种自玩机制,如生成对抗网络 (GAN) 来实现指令调优。它采用来自不同迭代的相同 LLM 的实例来组合玩家(判别器)和对手(生成器)。为了超越人类数据, R e S T E M ReST^{E M} ReSTEM [187] 提出了一种通过期望最大化进行强化学习的两步自我训练方法。它首先为每个指令生成多个样本并对其进行过滤,以通过二进制反馈创建合成数据,然后对模型生成的合成数据进行微调。为了探索人工智能反馈的无害性,CAI [8] 通过设计的原则或指令(即宪法)生成自我批评和修正的反应,然后对原始模型进行微调,以实现无害性的自我改进。为了更好地教 LLM 使用工具,Toolformer [177] 允许 LLMS 通过提示符自动将原始输入转换为 API 调用的输入。通过这种方式,LLMS 可以通过简单的 API 以自我监督的方式自学使用外部工具。

多模态。以上设计了各种指令样本,以提高 LLM 的对齐能力。但是,这些作品通常只有文本。另一个类别通过 LLM 本身合成多模态数据。为了微调大型视觉语言模型 (VLM) 以改善视觉问答 (VQA),SelTDA [94] 设计了一种自学数据增强策略,用于在小规模 VQA 数据集上微调大型 VLM。SelTDA 通过提示 BLIP [112] VLM 为图像添加标题,直接以图像为条件生成问答伪标签,允许我们对未标记的图像进行伪标记。

3.4.3 数据增强【数据标注、数据重组、协同标注】

数据增强旨在通过使训练样本多样化而不需要额外数据来提高模型性能。它利用高质量的说明或提示来生成用户期望的增强数据,并与目标任务相匹配。主要有三种类型:数据标注、数据改革和协同标注。
数据标签。数据标注利用LLM的语言理解能力来注释未标记的示例[275]。例如,ChatGPT-4 用于通过特定指令对政治 Twitter 消息进行分类 [198]。随后,一些工作表明,在许多注释高资源任务中,这些源自开源 LLM 的数据增强方式优于手动标记 [3, 275]。基于 LLM 的提示策略评估提示模板和演示的各种因素,以增强机器翻译数据 [252]。它通过零样本提示从单语数据中采用伪并行提示来提高翻译性能。为了实现多模态数据增强,T-SciQ [205] 使用思维链 (CoT) 提示格式教授科学问答,以生成高质量的 CoT 基本原理。它最终用于训练更小的模型,以在复杂的模态中执行 CoT 推理。

数据重组。Data Reformation 将现有数据转换为其他变体,以满足目标任务的数据格式要求。例如,CORE [45] 提出了一种检索增强生成方法,通过为反事实数据增强创建不同的反事实扰动。它包括反事实摘录到 GPT-3 的提示中,具有用于反事实编辑的小样本学习能力。此外,ALIA [51] 通过提示 GPT-4 将图像的标题总结成简短的描述,然后使用 Stable Diffusion [171] 对训练数据进行语言引导的图像编辑。在 NLP 任务中,ChatAug [37] 将训练样本中的每个句子转换为许多概念上相似但语义不同的实例。

共同注释。Co-annotation 旨在协作注释来自人类和 LLM 的数据。作为一种代表性方法,Coannotating 通过使用变分提示生成响应来设计人类-LLM 协同注释范式,利用不确定性来估计 LLM 的注释能力 [116]。为了提高注释的准确性,ChatGPT 被用来通过识别为相关属性的短语和简短的解释来增强注释数据 [11]。为了微调代码生成模型 [23, 157] 以帮助生成高质量的代码,ToolCoder [259] 开发了一种自动数据注释方法,用于通过 API 增强提示将工具使用信息合并到源代码中。

3.5. Preference Alignment偏好对齐【通用模型蒸馏、领域模型蒸馏、自提升、DA】

偏好对齐是通过系统地改进大型模型以匹配复杂的人类偏好来实现的 [14, 59]。这个过程从一般模型蒸馏开始 [4, 5, 7, 30, 35, 97, 106, 114, 148, 212],它综合了广泛的偏好数据,为不同任务提供了基础一致性。然后,域模型蒸馏 [38, 60, 85, 145, 146, 189, 225] 使用专门的数据集优化模型,从而提高特定域的性能。模型自我提升 [8, 22, 69, 79, 106, 193, 235, 241] 允许模型使用自我生成的反馈,以最少的人工干预迭代改进其能力。数据增强通过扩展和多样化训练数据进一步加强了模型泛化。这些相互关联的方法形成了一个连贯的框架,用于优化模型与一般和特定领域的人类偏好的对齐。

3.5.1 通用模型蒸馏

通用模型蒸馏旨在通过利用大型语言模型 (LLM) 和外部工具来生成高质量的偏好数据,以更好地将模型与复杂的人类偏好保持一致 [5]。这个过程对于提高实际应用中的 LLM 性能至关重要,特别是在安全性、可靠性和道德考虑等领域 [30]。这种方法的主要挑战之一是强模型固有的偏差和局限性 [7]。为了解决这个问题,可以采用从多个强模型中蒸馏出来,而不是依赖单个模型,以减少偏差并增加响应的多样性。

基于这些策略,已经开发了几种方法来优化偏好一致性并缓解上述挑战。例如,RLAIF [106] 使用 Reddit TL 等来源合成偏好数据;DR [202] 用于总结任务,并通过 Anthropic 的 Helpful, and Harmless Human Preferences 使对话生成与人类偏好保持一致。同样,ULTRAFEEDBACK [35] 利用 GPT-4 生成超过 100 万个反馈点。通过采用 Best-of-n 采样 [156] 和近端策略优化 (PPO) [101] 等技术,它提高了反馈质量并最大限度地减少了注释偏差。

除了这些方法之外,还创建了大规模数据集,以通过众包注释来增强模型对齐。例如,Open Assistant [97] 是在超过 13,500 名志愿者的贡献下开发的,在 66,497 个对话树中产生了超过 161,000 条消息。每条信息都针对质量、创造力和危害性进行了注释。此外,HelpSteer [212] 通过注释 37,000 个对话的有用性、正确性、连贯性、复杂性和详细程度等属性来提高数据质量。提高模型对齐的另一种关键技术是选择性反射调整 [114],它通过在将教师模型的输出用于蒸馏之前过滤来优化响应。筛选基于学生模型的 r-IFD 分数,确保仅保留最具挑战性和最适当的响应进行训练。此外,像 LEMA [4] 这样的模型通过使用 GPT-4 来识别和纠正学生模型响应中的错误,从而增强了细化过程。然后,这些校正用于微调学生模型,使对齐过程更加准确和有效。

LLM 的优化和批评功能对于提高对齐度至关重要。SELF-REFINE[148]允许模型对自己的回答进行批评,根据自己的反馈生成改进的输出。此外,评估方法,如来自 the Critique of Critique [192] 的 MetaCritique [192],提供了评估模型的批判如何有效地提高细化的指标。CriticBench [126] 还探讨了生成能力与批判和纠正反应的能力之间的关系,提供了对模型性能的见解。

3.5.2 域模型蒸馏【强化学习、偏好建模等】

领域模型蒸馏侧重于通过在专门的和特定于领域的数据集上训练模型来优化模型以执行特定任务,通常使用强化学习和偏好建模技术。这种方法使模型能够在各个领域中表现良好,从而增强它们处理复杂、专业任务的能力。通过这个过程,模型被细化以满足各个领域的要求,包括面向安全的场景 [38, 60, 85, 225]、总结 [189]、数学问题解决 [124]、基于搜索的问答 [156] 以及代码生成和逻辑推理 [145, 146]。

3.5.3 模型自我提升【自反馈循环Self-Feedback Loops、外部评估】

模型自我改进侧重于使较弱的 LLM 能够迭代地提高其性能,而无需额外的人工注释数据。这种方法包括两类:自我反馈循环 [8, 69, 79, 106, 193, 235, 241],其中模型根据自我生成的反馈自主改进其输出,以及外部评估模型 [22, 26, 47, 119, 241],它依靠外部评估者来评估模型的响应。这两种方法都旨在通过减少对人工干预的依赖来创建一个可扩展的改进系统,允许模型通过内部调整或外部指导不断优化其性能。

自反馈循环 。CAI [8] 是早期通过反馈循环实现自我完善的方法之一,它通过使用小样本提示混合人工和模型生成的提示来合成对齐数据集。By focusing on tasks such as red teaming and helpfulness ,CAI 通过 AI 自我批评和思维链推理实现迭代改进,减少对人类反馈的依赖 。这为 RLAIF [106] 奠定了基础,其中 AI 选择符合宪法要求的偏好数据。

【但是,早期的 RLAIF 面临着一些挑战,例如由于离线数据生成而导致的分发转移 。】

为了解决这个问题,OAIF [69] 和 SELF-JUDGE [235] 等方法引入了策略偏好选择 ,其中预先训练的 Judge 模型实时选择偏好,确保与 LLM 的当前状态保持一致。

自我反馈循环的一个关键方面是奖励模型在refining responses中的作用 。】

In earlier methods, reward models were often static , leading to problems such as reward hacking [188].

在早期的方法中,奖励模型通常是静态的 ,容易导致黑客攻击等问题 [188]。自奖励Self-Rewarding [241] 引入了一种动态解决方案,它允许 LLM 充当自己的奖励模型,迭代选择偏好数据并通过直接偏好优化 (DPO)[165] 训练来改进自己。这种方法可确保模型和奖励机制共同发展,从而在整个训练过程中保持一致。在自反馈循环中动态调整偏好的另一种方法是 SALMON [193],它引入了一个 Instructable Reward Model。这允许根据不同的原则对响应进行灵活的评分。这种适应性使训练期间的偏好对齐更加精确。此外,CycleAlign [79] 使用 LLM 生成的输出的概率对相似的响应进行排名,选择两个排名结果中最长的公共子序列来优化最终排序。

外部评估模型 。外部评估模型在几个自我提升框架中发挥着重要作用。例如,ALPAGASUS [22] 使用像 ChatGPT 这样的强大 LLM 来过滤掉低质量的数据,在提高模型性能的同时显着减小了训练集的大小。此方法演示了外部评估如何通过仅关注高质量输入来增强模型细化。另一个突出的技术是指令回译 [119],它为未标记的 Web 数据生成指令提示,并选择高质量的对进行微调 。这种方法提高了模型遵循指令的能力,而无需大规模的人工注释。SteerLM [47] 通过根据特定属性(如幽默、创造力和毒性)对模型进行微调,更进一步。这是通过属性预测模型完成的,该模型使用 Open Assistant [97] 和 HH-RLHF [7] 等数据集评估响应并对其进行优化。

最近的方法,如 Self-Rewarding [241] 和 SPIN [26] 进一步将偏好优化与迭代反馈系统集成在一起。Self-Rewarding 采用 DPO 框架,其中 LLM 生成新的提示和候选人响应,然后由 LLM 本身进行评判,从而不断改进一致性 。相比之下,SPIN 完全依赖人工注释的数据进行迭代改进,从而消除了对奖励模型的需求。然而,正如 SPIN 所指出的,一旦模型达到人类水平的性能,这种方法可能会成为瓶颈,因为进一步的改进需要持续的人工干预。

3.5.4 数据增强

数据增强对于通过创建现有数据的特定任务变体来增强大型模型对齐至关重要,这增强了模型的泛化和稳健性。这种方法增加了训练数据的多样性,而无需额外的数据收集。采用数据标记 [126, 240, 250, 273]、数据改革 [80, 119, 210, 218, 250] 和协同注释 [85, 211] 等技术来确保增强的数据保持相关性和一致性,从而有助于在各种任务中实现更精确的模型性能。

数据标签。数据标注通过提供结构化、高质量的反馈来指导学习,在使模型与人类偏好保持一致方面发挥着至关重要的作用。Starling-7B [273] 就是一个例子,它从聊天提示中收集排名数据,并生成数百万次成对比较以优化模型对齐。受指令进化 [250] 启发,在 UltraInteract [240] 中看到了一种更动态的方法,它从 LLM 响应构建了一个偏好树。此树根据来自 GPT-4 等模型的反馈优化不正确的响应,从而创建更多样化和更强大的偏好数据。这些进步反映了指令动态进化的必要性,以增强偏好标签和细化,正如 CriticBench [126] 所指出的那样,在某些知识领域,反馈可能比生成更有效。

数据重组。数据重组是重组现有数据以更好地与任务特定目标保持一致的过程。使模型能够提高其适应性和性能。该领域的一个突出方法是上下文学习 [46],其中嵌入在提示中的示例指导 LLM 生成反映所提供模式的响应。这与 Instruction Evolution 密切相关,后者强调增加指令的复杂性和多样性。早期的工作,如Self-Indirected [210]和Unnatural Instructions [80],依赖于带有手工制作种子样本的任务池,而LaMini-LM [218]通过整合来自维基百科的丰富数据来生成更多样化的指令,从而扩展了这种方法。Auto Evol-Instruct [250] 最初是为演化指令而开发的,它通过允许 Optimizer LLM 根据演化的反馈数据迭代改进规则来自动优化演化规则。此外,指令回译 [119] 通过从未注释的数据生成指令-响应对来增强指令跟随能力,从而减少了对手动注释的需求。数据改革的这种持续改进对于提高各种任务的性能至关重要。

共同注释。Co-Annotation 是指将人工和机器生成的注释相结合以提高模型输出的质量和安全性的协作过程。例如,BEAVERTAILS [85] 演示了如何综合来自 44,000 多个对抗性提示的数据,包括人类和机器输入,生成带有安全元标签的 QA 对,帮助模型避免有害输出。同样,HelpSteer2 [211] 将人类专业知识与 LLM 生成的响应相结合,以改进多轮对话,确保模型更紧密地遵守道德准则。

4. 功能性

从 LLM 的功能角度来看,数据合成和增强可以分为四类:理解、逻辑、记忆和生成 [31, 199]。通过探索 LLM 中的四个基本功能,数据合成和增强可以充分捕获大规模数据中的固有模式,并将其有效地应用于下游应用程序和任务。

4.1. understanding 【单模态(文本理解|语义标注)、多模态理解

理解功能利用 LLM 强大的语言理解来理解数据。从理解的内容来看,它包括单模态和多模态理解。

  • 单模态理解主要理解文本的语义,包括文本理解和语义标注
  • 多模态理解结合了多种模态。

文本理解。为了提高 LLM 的指令跟随能力,Alpaca [196] 和 Alpagasus [22] 利用人类编写的指令-响应对,通过小样本提示生成指令跟随演示,从而提高了指令跟随模型的能力。沿着这条路线,WizardLM [223] 从深度和广度生成更多样化和面向多任务的指令,以提高 LLM 的性能。为了执行模型自我改进,Self-Instruct 试图通过自举来提高 LLM 的指令跟踪能力 [210]。它对生成的指令进行分类,并生成可能的类标签以促进多样性。为了进一步理解文本内容,SPIN [26] 将指令调整视为一个双人游戏,使用主要玩家作为判别器来区分 LLM 和人类之间的反应。这通过理解和区分文本响应来增强 LLM,而无需额外的人工注释数据。此外,WRAP[150] 利用了网络文章固有的多样性,使 LLM 能够对在线找到的嘈杂和非结构化内容生成高质量的释义。

语义标注

  • 为了更深入地理解文本属性,指令回译通过自动标记人类编写的文档和相应的指令来促进遵循语言模型的教学 [119]。
  • 类似地,ChatGPT-4 用于通过指令对政治信息进行分类,通过给它们贴上政治倾向标签 [198],进一步理解信息的语义。
  • 引入 ChatGPT 注释的数据增强模式,Co-Annotating [116] 协作查看人类与 LLM 之间的关系,选定的帕累托效率概念使参与者能够比较策略并更深入地理解成本和性能之间的权衡。
  • 为了给注释者提供解释,ChatGPT被引入,通过设计提示来生成模型解释[259],以改善社交媒体上赞助内容的人为标记。

多模态理解LLaVA [130] 是第一个使用 LLM 生成高质量语言图像教学的数据用于通用视觉和语言理解的工作。它使用图像的标题和边界框作为符号表示,将图像编码为 LLM 可识别的序列,并生成三种类型的指令跟踪数据,以从图像中完全捕获语义信息。已经证明,合成数据可以提高模型在数据稀缺环境中执行图像识别任务的性能[76]。ChartLlama[73] 是在通过多步骤过程生成的数据集上进行训练的,与现有数据集相比,它包含更广泛的图表和任务类型。Genixer[266] 可灵活地从未标记的图像中生成各种视觉指令调整数据,增强了视觉问答和引用表达式理解任务的能力。从清晰性、复杂性、正确性、有用性和适应性 5 个方面评价了 SciLitInsis[118] 的质量,以提高 LLM 的科学文献理解能力。

4.2. logic【代码、数学、推理】

Logic 功能在综合和增强数据的过程中充分利用了 reasoning 和 logic function。根据逻辑的应用,有以下三类:代码逻辑、数学逻辑和推理。

代码。为了提供复杂的推理能力, R e S T E M ReST^{E M} ReSTEM [187] 选择具有二元奖励函数的训练样本来输出合成数据。它利用逻辑推理来提高 LLM 在解决问题的任务(如代码生成和数学问题)上的性能。为了优化代码,ToolCoder [259] 利用提示为 ChatGPT 的 API 搜索工具生成 API 增强代码。通过集成 API 搜索工具,代码生成过程得到了增强,使模型能够在选择 API 时自动利用搜索工具获取建议。此外,OSS-Instruct[215] 启发了 LLM 生成更多样化、更真实、更可控的编码指令数据,这可以大大提高各种 LLM 的推理性能。利用小型 LLM 和编码器解释器,从预训练代码文本中自动高效地收集高质量的 Case2Code[180] 数据集 LLM 的性能通过对合成编程和解决方案进行微调而得到增强,这些解决方案由 Python 解释器验证[71]。

数学 Instruct[244] 有两个主要特征,包括广泛覆盖不同的数学领域和复杂程度,以及混合 CoT 和 PoT 基本原理,使 MAmmoTH 能够胜过现有的开源模型。受益于 MMIQC[131] 的多样化数据源和迭代问题撰写的有效性,在 MMIQC 上微调的模型在数学基准上实现了新的 SOTA。

推理。为了获得可靠的推理性能,Orca [154] 提出了从 GPT-4 的复杂解释痕迹中进行渐进式学习,并学习模仿 LLM 的推理过程。此外,Orca2 [152] 设计了各种推理策略,例如,step-by-step 和 recall-reason-generate,以增强较小 LLM 的推理能力。为了生成用于指令调整的合成数据,CAI [8] 从简短的宪法列表中采样一个批评请求,并提示模型生成对响应的批评,识别有害的输出以构建一个无害但不可回避的人工智能助手 [172]。为了增强科学问答任务,TSciQ [205] 使用 LLM 的 CoT 推理功能生成 QA-CoT 样本作为教学数据样本。由于有些问题非常复杂,T-SciQ 进一步设计了一种 3 步零镜头提示方式来产生基于规划的 CoT 基本原理,将复杂的问题分解成更容易解决的更简单的子问题。利用 CoT 示例作为指导,LLM 生成高置信度的 CoT 推理路径,这些路径作为最终训练样本反馈给模型进行微调[81]。此外,STaR[248] 通过使用合理化来增强微调数据集,并证明模型未能解决的问题的真实答案是合理的,从而改进了 LLM 本身。符号调优[213] 利用了这样一种直觉,即当模型无法使用指令或自然语言标签来计算任务时,它必须在上下文中使用输入标签映射进行推理。

此外,推理还可以扩展到多模态场景。为了优化视觉问答任务,SelTDA [94] 提示 VLM 为各种图像添加描述,然后转换每个图像caption 转换为布尔问题。通过这种方式,SelTDA 构建了一个直接的图片转文本任务,并通过对问题和答案进行采样来对未标记的图像进行伪标签。认识到 LLM 在抽象图像感知和推理方面存在困难,多模态自我指导[263] 为日常环境量身定制了抽象图像的基准。

4.3. Memory【程序、语义、情景】

在合成数据时,内存功能会记住并利用以前在 LLM 中学到的信息 [83]。根据记忆内容的特性,记忆功能可分为三类:程序记忆、语义记忆和情景记忆[201]。

程序记忆。过程内存保留了任务和操作执行方式的特定过程。为了执行软件工程的代码排序任务,使用排序算法通过识别隶属类别(包括不同的社区和贡献者)来对代码 LLM 进行排序 [269]。为了使LLM代理[265]能够自动运行,代码生成模型采用三种类型的上下文监督来指定库函数并构建代理的代码以解决用户指示的任务[160]。此外,为了探索LLM的内部推理过程,Quiet-STaR [247]基于自学推理器[248],在遵循文本中的所有标记时,会产生思想和理由来解释未来的文本。它诉诸程序推理来产生像人类一样思考的过程。

语义记忆。语义内存合成符号表示的可表示数据,以保留已确认的世界知识,如知识图谱、文档和 API。为了实现自主知识图谱构建和推理任务,AutoKG 设计了一种基于多智能体的方法,该方法将多个智能体组合在一起,扮演不同的角色,如助手和领域专家,协同完成任务 [274]。同时,AutoKG 将外部知识库和互联网资源整合到知识图谱中,以弥补 LLM 的局限性。为了探索一般文档中的语义内容,KPC 设计了一个基于知识驱动的提示链代码生成模型 [167]。它将代码生成过程分解为迭代验证和修订阶段,并采用从文档中派生的细粒度异常处理知识来促进 LLM 的代码生成。为了有效地利用现有的API并防止模型发明不存在的API,De-Hallucinator通过模型的初步预测自主识别与特定项目相关的API引用,然后将这些引用合并到提示中[52]。

情景记忆。情景记忆记住与当前状态和个人经历密切相关的上下文内容。为了创建多样化的合成数据来展示不同的角色,Persona Hub 提出了一种角色驱动的数据合成方法,以捕获真实世界用户的知识和经验 [16]。Persona Hub 通过文本到角色和角色到角色的方式从海量 Web 数据中生成 10 亿个不同的角色。为了获得准确的响应,AceCoder 提出了一种 promptenhanced 技术来捕获上下文信息。它首先告诉 LLM 分析和明确需求,然后在提示中选择类似的程序作为补充示例提供提示的相关内容 [113]。为了有效地利用用户体验信息,RepoCoder 通过在迭代检索生成框架中集成基于相似性的检索机制和预先训练的代码语言模型 [255] 来优化存储库级别的代码完成过程。它采用可用的检索器在存储库中查找相关知识,从而改善 LLM 的上下文基础。

4.4 生成【内容生成(文本/多模态生成)、检索增强生成】

生成功能旨在为下游任务和应用程序生成连贯且上下文相关的内容。根据生成内容的形式,有以下两类:内容生成(例如文本和多模态生成)和检索增强生成。

文本生成 。为了完成机器翻译的序列理解和生成,一种基于LLM的提示策略[252]利用反向/向前翻译,通过零镜头提示来增强单语数据。

  • 对于文本增强,ChatAug 将一个句子改写为多个语义相似的句子 [37]。
  • Genie [236] 生成自然、忠实和多样化的高质量数据,并且在合成数据上训练的模型更忠实于基础内容。
  • 从多样性和质量原则的指导出发,UltraMedical [258] 数据集可用于构建生物医学的专业通才。
  • 通过利用释义接近和批评家指导的蒸馏,Impossible Distillation [91] 生成了一个高质量的数据集,以增强模型的释义生成和句子总结的能力。
  • 华拓[204] 通过首先从知识图谱中提取知识实例,然后使用 ChatGPT 创建针对该特定知识量身定制的实例,从而提高其回答的事实准确性。
  • TinyStories[53] 旨在捕捉自然语言的精髓,从而使在其上训练的模型能够产生流畅和一致的故事。
  • UltraChat 是使用两个不同的 ChatGPT Turbo API 创建的,用于制作信息丰富且逼真的多回合对话。一个模拟用户生成查询,而另一个则制作响应[44]。
  • 此外,Baize[222] 采用了结合反馈的自蒸馏技术,使模型能够识别反馈中的细微差别并进行细粒度优化。
  • DIALOGIC[122] 有效地扩展了有限的对话数据集,只需最少甚至零的人工参与和参数调整,解决了资源匮乏场景的挑战。
  • DISC-MedLLM[10] 利用 ChatGPT 重新表述现有的医学 NLP 数据集,以在端到端对话式医疗保健服务中提供准确和真实的医疗响应。
  • 在 ReST[66] 中,负对数似然训练的多个步骤,在改进步骤中逐渐增加过滤阈值 ,在增长步骤中逐渐增加人工评估分数,导致模型性能的持续改进。
  • Self-translate-train[170] 通过有效利用模型的固有翻译功能来提高跨语言性能。
  • TinyDialogues[56] 发现,多样化的数据源混合优于同质对话数据,这表明高质量的合成对话数据比自然对话数据产生更好的性能。

多模态生成 。为了实现自动语言引导的图像增强,ALIA [51] 总结了图像描述,通过 LLM 生成自然语言描述,并与原始数据相比显示出明显的视觉多样性。

检索增强生成 。检索增强生成 (RAG) 整合了外部知识 ,以生成准确且适合上下文的内容 [18]。为了解决整个文本语料库中的整体问题,GraphRAG [40] 利用 LLM 构建基于图的文本索引 ,并整合所有部分响应以生成全局响应。构建的知识图谱在 GraphRAG 中包含了丰富的实体和关系 ,有利于生成更全面、更多样化的答案。考虑到知识嵌入模型和查询与上下文之间的独立处理的局限性,RankRAG [246] 指令调整 LLM 以同时评估查询和上下文之间的相关性 ,并利用检索到的上下文生成准确的答案。为了减轻检索器负担之间的不平衡,LongRAG [88] 设计了长检索器和阅读器组件来减小语料库的大小,从而仅用几个顶部单元就实现了有效的检索召回。

5.挑战和限制

数据合成和增强在增强 LLM 的功能方面起着关键作用。然而,这些技术面临着重大挑战和限制,可能会阻碍其有效性。

5.1 合成和增强方法

尽管合成和增强数据很重要,但在实践中使用不同的合成和增强方法仍然存在关键挑战

对 LLM 的依赖 。利用 LLM 执行小样本或零样本任务的能力来生成数据,这表明这些模型需要足够大才能具有一定程度的推理或数据生成能力 [107, 232]。否则,使用较小模型进行数据合成或增强可能不足以增强 LLM 的特定功能。因此,数据合成和增强的方法严重依赖于 LLM 本身的能力

使模型训练中的评估和净化复杂化。在模型训练中使用合成数据会使公平评估变得非常复杂。评估基准通常是根据公共文本源(例如课程网站或论坛)创建的,而合成数据的引入可能会加剧此问题。虽然社区已经提出了几种检测评估污染的技术,但当模型训练涉及合成数据时,这些基于token的净化方法可能被证明是无效的 [65]。建议模型开发人员投资创建和维护内部和受保护的评估基准,以确保评估过程的完整性。

RLAIF 中的不确定性和搜索复杂性偏好对齐已经从人工反馈发展到 AI 生成的反馈 。尽管取得了这些进步,但目前的方法在很大程度上仍然依赖于被动反馈机制,其中只有通过主动评估才能收集有意义的见解以及查询模型的性能 [106]。这带来了重大挑战,因为广阔的搜索空间需要大量的测试样本来获得有价值的反馈。此外,AI 生成的反馈的一个关键问题是其与人类偏好的真正一致性的不确定性。迄今为止,还没有明确的证据表明 AI 反馈可以可靠地作为有效的对齐信号发挥作用,这引发了对其可信度和有效性的怀疑。

不稳定且不一致的逻辑路径 。在严重依赖逻辑推理的应用程序中,研究人员努力生成合成推理路径 [145, 186, 248, 253, 254] 以增强大型语言模型 (LLM) 的逻辑能力,通常只验证步骤的子集或仅验证答案。然而,验证这些推理路径中每个步骤的正确性和一致性仍然具有挑战性,尤其是在知识密集型学科中。将知识库或正式的逻辑推理工具集成到数据生成系统中,可能有助于创建更稳定和一致的逻辑路径。

5.2. 数据质量【多样性、长尾、可靠、分布一致】

数据质量至关重要,尤其是在 LLM 的合成和增强数据方面。与已经存在的多样化、可信、高质量的真实数据不同,数据合成和增强的性质可能会影响生成数据的质量。

数据多样性。当前许多方法依赖于预定义的模板或算法,这些模板或算法可能会无意中产生同质输出。这种同质性限制了模型对不同语言模式和上下文的暴露,最终阻碍了其泛化到不同现实世界输入的能力 [15, 33]。此外,合成和增强数据通常无法捕捉到现实世界语言使用的复杂性,例如惯用语、文化参考和上下文变化。出现这个缺点是因为合成和增强数据可能无法整合真实对话和互动中的丰富性和多样性。因此,主要使用这些数据训练的模型可能会遇到语言的微妙之处,而这些细微之处对于有效的沟通和理解至关重要[155]。

长尾现象。LLM 生成的数据最显著的改进是在广泛使用的语言中观察到的。相反,在语言使用频率较低的上下文中可能只有轻微的进步。因此,数据合成和增强的方法可能难以有效地处理罕见或创新的指令 [217, 267]。这导致了语言使用分布高度偏斜的长尾问题。常用短语和上下文可能在合成和增强数据中占主导地位,而罕见或特殊情况几乎没有代表。这可能会导致在涉及不经常使用语言的场景中,例如技术术语或小众主题,性能显著下降。

可靠性。合成数据的可靠性无法得到有效保证 [62, 140]。例如,尽管符合语言规则,流利,并且符合人类偏好,但合成内容的事实和及时性仍然存在许多问题,无法对合成内容做出可靠的评估。更重要的是,合成数据可以反映原始数据集中的偏差或不准确之处,导致到不可靠的输出 [153]。如果用于训练的数据集包含有偏差的样本,则合成的数据可能会使这些偏差永久化。

分布不一致。合成数据和人为生成数据分布之间的不一致对于 LLM 至关重要。当存在显著的不匹配时,模型可能难以理解并产生与用户产生共鸣的反应[221]。首先,原始数据和 LLM 中的偏差可能会产生不适当的数据,这些数据不能反映语言使用的自然分布,从而导致分布差异。其次,合成和增强数据中缺乏上下文导致生成的短语或句子与人类交流的语用学不一致。

5.3.数据合成和增强的影响【隐私、安全、社会影响】

除了数据本身的质量和方法论因素外,数据合成和增强还会对外部环境产生一定的影响,涉及个人、群体、社会和人类价值观。
隐私。合成和增强数据可能包含来自真实个人的痕迹或模式,从而损害用户隐私。在生成的数据模拟敏感属性的应用中,这一挑战更加严重,因此难以确保完全匿名 [209, 228]。此外,为了解决对所有权和真实性的担忧,人们正在探索数据水印技术。这些技术允许在合成数据中嵌入可识别信息,从而实现可追溯性和问责制。然而,此类系统的实施必须在隐私需求与验证数据来源的能力之间取得平衡,这引发了对在不影响数据效用的情况下有效水印的可行性的质疑。

安全。虽然合成和增强数据通常被视为解决隐私问题的方法,但其安全性并未得到保证。恶意行为者可以利用生成过程来制作欺骗 LLM 的对抗性示例 [257]。此外,这些生成的数据有时可以进行逆向工程,从而揭示可能导致敏感真实世界数据的重建模式。另一个潜在风险是合成和增强数据也可能作为将漏洞引入模型的载体。攻击者可能会将后门嵌入到数据生成过程中,从而导致模型在特定条件下的行为不可预测。这些漏洞可以被用于恶意目的,引发严重的安全问题[216]。

社会影响。数据合成和增强带来了无数的法律挑战。例如,所生成数据的真实性会使知识产权和数据所有权问题复杂化[159]。此外,滥用数据对误导性信息的传播构成重大威胁。特别是,它被用于模仿真实的个人和操纵公众舆论,会带来严重的风险。一个重要的事实是,这些数据可能会在不经意间延续或放大社会偏见。如果 LLM 是在有偏见的数据上训练的,那么从 LLM 得出的输出可能会反映和强化有害的刻板印象。此外,不同社会的文化规范差异很大;因此,在一种情况下适当的合成和增强数据在另一种情况下可能具有冒犯性或不适当性。社会文化影响的数据应仔细考虑,以避免加深现有的不平等 [182]。

5.4 对不同应用和任务的影响【领域泛化和领域适应】

数据合成和增强技术在提高 LLM 在不同任务中的性能方面起着至关重要的作用。但是,这些方法的有效性可能会因其实施以及合成和增强数据的具体特征而有很大差异。

泛化。虽然合成和增强数据可用于在标记数据稀缺的情况下训练模型,但其泛化到看不见的示例的能力往往不足。这种限制源于这样一个事实,即生成的数据可能无法完全捕捉到实际数据中存在的复杂性和可变性。因此,主要基于这些数据训练的模型在应用于新的真实情况时可能会表现出较差的性能,从而导致一种称为过度拟合特定数据模式的现象。例如,在医疗领域,由于方案或患者人口统计学的不同,从一个医疗保健系统合成的数据可能不适用于另一个医疗保健系统[230,231]。

可转移性和域适应。合成数据和增强数据可以设计为模拟各种域。但是,传输到不同域的性能仍然是一个挑战。由于合成数据和真实数据分布之间的差异,来自一个领域的数据模式可能难以适应另一个领域 [127, 206]。因此,当生成数据时,它通常体现了源域的特定特征,这些特征可能与目标域不完全一致。这种错位会阻碍模型有效传递其知识的能力。例如,在模拟正式语言的合成对话上训练的模型在面对实际应用程序中的非正式对话上下文时可能表现不佳。

5.5 未来方向【多模态综合、实时、领域蒸馏、大规模、评估指标、道德】

多模态综合。多模态数据合成技术解决了不同数据类型(例如文本、图像、音频和传感器数据)的集成问题,以创建更丰富、信息量更大的数据[87]。这有助于创建多样化的训练样本,以增强模型对过度拟合和可变性的鲁棒性。这些不同的样本有效地缓解了许多特定场景(如医疗保健和自治系统)中的数据稀缺问题。

实时合成。实时数据合成的进步将允许动态生成,使虚拟助手和交互式游戏环境等应用程序能够无缝适应用户输入[93]。此功能将提高用户参与度,并在各种平台上创建更加个性化的体验。

域模型蒸馏。现有的研究主要集中在使用通用模型(如 GPT)合成数据。但是,与通用模型相比,特定于域的模型在其各自的域中具有更强的功能。因此,利用特定领域的模型来合成领域数据有望进一步增强该领域内 LLM 的能力 [124, 146, 156]。

大规模合成。预训练大型模型需要大量高质量的数据。现有的数据合成或增强方法在生成数据方面的可扩展性有限。这大规模预训练数据集的合成有望增强预训练模型的综合能力[93]。

稳健的质量评估指标。数据合成和增强需要确保生成数据的质量 [32]。目前的方法缺乏标准化的指标,无法充分评估合成数据集的多样性和相关性。未来的研究应该侧重于开发稳健的指标,不仅评估生成文本的语言质量,还评估其上下文适当性、多样性和潜在偏见。

道德考虑和负责任的数据合成和增强。LLM 数据合成和增强中的道德考虑和负责任的做法对于确保 AI 系统的完整性和公平性至关重要。随着这些方法越来越多地影响模型训练和结果,一些关键问题(如偏差传播、错误信息和数据滥用)变得明显。必须建立道德准则来管理合成和增强数据的生成和应用,促进透明度、问责制和包容性 [89]。

6.结论

数据合成和增强对于推进 LLM 至关重要,尤其是在满足 LLM 对大规模和高质量数据的需求方面。本调查全面回顾了面向 LLM 的数据合成和增强技术,系统地探讨了它们在 LLM 的整个生命周期和核心功能中的应用,同时构建了一个连接现有研究的框架,突出了关键方法,并阐明了优势和局限性。我们设想,面向 LLM 的数据合成和增强方法的进步将为提高数据效率、改进跨任务的泛化并推动以数据为中心的 AI 的发展带来新的可能性。我们希望这项调查能成为未来研究的基础,激发面向 LLM 的数据合成和增强领域的创新和进步。

相关推荐
刀客12326 分钟前
python3+TensorFlow 2.x(四)反向传播
人工智能·python·tensorflow
SpikeKing32 分钟前
LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)
人工智能·llm·预训练·scalinglaws·100b·deepnorm·egs
小枫@码1 小时前
免费GPU算力,不花钱部署DeepSeek-R1
人工智能·语言模型
liruiqiang051 小时前
机器学习 - 初学者需要弄懂的一些线性代数的概念
人工智能·线性代数·机器学习·线性回归
Icomi_1 小时前
【外文原版书阅读】《机器学习前置知识》1.线性代数的重要性,初识向量以及向量加法
c语言·c++·人工智能·深度学习·神经网络·机器学习·计算机视觉
微学AI1 小时前
GPU算力平台|在GPU算力平台部署可图大模型Kolors的应用实战教程
人工智能·大模型·llm·gpu算力
西猫雷婶1 小时前
python学opencv|读取图像(四十六)使用cv2.bitwise_or()函数实现图像按位或运算
人工智能·opencv·计算机视觉
IT古董1 小时前
【深度学习】常见模型-生成对抗网络(Generative Adversarial Network, GAN)
人工智能·深度学习·生成对抗网络
Jackilina_Stone1 小时前
【论文阅读笔记】“万字”关于深度学习的图像和视频阴影检测、去除和生成的综述笔记 | 2024.9.3
论文阅读·人工智能·笔记·深度学习·ai
远洋录1 小时前
AI Agent的安全实践:权限控制与数据保护
人工智能·ai·ai agent