【LLM】大模型数据清洗&合成&增强方法

note

文章目录

note
[一、Can LLMs Clean Up Your Mess](#一、Can LLMs Clean Up Your Mess)
[二、Scaling Synthetic Instructions to Pre-Training Scale](#二、Scaling Synthetic Instructions to Pre-Training Scale)
Reference

一、Can LLMs Clean Up Your Mess

【大模型数据工程进展】主要讲的故事是大模型增强型数据准备展开系统性综述，围绕数据清洗、数据集成、数据增强三大任务，分析从传统基于规则的方法向提示驱动、上下文感知、智能体为核心的范式转变。Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs，https://arxiv.org/pdf/2601.17058，

解决当前的问题：

主要数据处理的步骤：

1）数据清洗【数据标准化：统一数据格式，基于提示端到端（LLM-GDO）、代码生成（Evaporate）、智能体辅助（CleanAgent）；数据错误处理：检测并修复错误值，提示端到端（IterClean）、函数合成（LLMClean）、任务自适应微调（GIDCL）、混合LLM-ML（ZeroED）；数据填补：填充缺失值，提示端到端（CRILM）、检索引导（RetClean）、模型优化（LLM-REC）】；

2）数据集成，整合不同来源数据，【实体匹配：关联同一现实世界实体的记录，提示端到端（MatchGPT）、任务自适应微调（FTEM-LLM）、多模型协同（COMEM）；模式匹配：对齐不同数据集的列或属性，提示端到端（LLMSchemaBench）、检索增强（KG-RAG4SM）、模型优化（TableGPT2）、智能体引导（Agent-OM）】；

3）数据增强，扩充数据集语义信息【数据标注：为数据分配标签或类型，提示端到端（CHORUS）、RAG上下文增强（RACOON）、微调（OpenLLMAnno）、混合模型（CanDist）、智能体辅助（STAAgent）；数据剖析：生成语义画像与元数据，提示端到端（AutoDDG）、RAG上下文增强（LLMDap）】。

二、Scaling Synthetic Instructions to Pre-Training Scale

【大模型训练数据合成工具进展】讲的故事是将互联网规模预训练文档转化为大规模合成指令-答案对的方法，通过挖掘～1800万真实用户查询生成指令模板，结合语义匹配与高斯池化技术将模板与预训练文档配对，生成10亿+高质量指令-答案对，验证 "预训练直接用指令 - 答案对" 的可行性。FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale，https://arxiv.org/pdf/2601.22146，代码在https://huggingface.co/fineinstructions。看核心思路：

1）指令模板生成【step1.收集18M真实用户查询（含论坛、搜索引擎、prompt库）->step2.过滤有害查询（OpenAIModerationAPI）+去基准污染；->step3.Llama-3.21B模型将查询转为带标签的通用模板】；

2）文档-模板匹配【step1.BGE-M3嵌入模板的"兼容文档描述"，构建FAISS索引->step2.文档转为知识描述并嵌入，检索5个候选模板->step3.两阶段微调BGE-M3（余弦相似度损失），支持高斯池化】;

3)指令-答案生成【step1.蒸馏Llama-3.23B模型，基于模板+文档实例化指令->step2.答案要求：文档片段占比≥80%，减少生成式幻觉->step3.过滤：FlowJudge模型（3.8B参数量）按5分制筛选，保留≥4分数据，每文档平均生成3个指令-答案对，总数据量1B+】

Reference

1\] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs，https://arxiv.org/pdf/2601.17058 \[2\] FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale，https://arxiv.org/pdf/2601.22146，代码在https://huggingface.co/fineinstructions