HKUST:通过agent协作选取LLM训练数据

📖标题:Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

🌐来源:arXiv, 2410.08102

🌟摘要

🔸高效的数据选择对于加速大型语言模型(LLM)的预训练至关重要。虽然已经提出了各种方法来提高数据效率,但有限的研究解决了这些方法之间的内在冲突,以实现LLM预训练的最佳数据选择。

🔸为了解决这个问题,我们提出了一种新的多代理协作数据选择机制。在这个框架中,每种数据选择方法都充当一个独立的代理,并设计了一个代理控制台,用于在整个训练过程中动态集成来自所有代理的信息。我们进行了广泛的实证研究来评估我们的多代理框架。

🔸实验结果表明,与最先进的方法相比,我们的方法显著提高了数据效率,加速了LLM训练的收敛,并在多语言模型基准测试中实现了高达10.5%的平均性能提升。代码和检查点在<github/beccabai/multi-agent-data-selection>上公开发布。

🛎️文章简介

🔸研究问题:如何在大规模语言模型(LLM)预训练中优化数据效率,解决现有数据选择方法之间的内在冲突?

🔸主要贡献:论文提出了一个多代理协作数据选择机制,并通过实验证明了该方法在提高数据效率、加速模型训练收敛以及在多个语言模型基准测试中的性能提升。

📝重点思路

🔺相关工作

🔸LLM预训练中的数据选择:分类器和语言建模困惑度已被用于识别类似于高质量样本的数据,数据混合(如DoReMi)和主题分布(如Llama 3.1)能在代币层面和样本层面提高数据多样性。

🔸多代理协作框架:促进自主代理之间的协作问题解决,这些系统中的代理可能有相互冲突的目标,并根据他们的目标独立采取行动,因此需要奖励机制进行评估及反馈。

🔺框架概述

🔸多代理协作数据选择机制:每个数据选择方法作为一个代理(分别处理质量、领域和主题等),能够为训练数据样本提供评分

🔸评分整合:设计了一个代理控制台来有效整合所有代理的评分,生成优化的数据选择结果。

🔺实施流程

🔸离线标注阶段,每条数据的初始信息被计算并存储在每个代理的记忆中。

🔸在线更新阶段,代理根据当前模型计算的奖励更新其内部权重,并根据其记忆和更新后的权重为每个数据点分配分数。

🔎分析总结

🔸端到端实验:论文的方法在数据效率方面显著提高,导致LLM训练的更快收敛,并在各种语言模型基准测试中平均提高了10.5%的性能。

🔸消融研究:验证了多代理框架设计中核心组件的设计和实现对于达到高级性能是必要的。

🔸下游任务评估:论文的方法在平均性能上显著优于所有基线方法,特别是在与随机采样方法相比时,不仅显著优于标准300亿token设置,还超过了在600亿token上训练的模型,性能提升4.7%。

🔸统计和计算效率:论文的方法在LLM训练收敛的统计效率和数据处理开销的计算效率方面都表现出色。

💡个人观点

论文的核心是将每种数据选择打分器作为一个代理,通过协作的方式进行数据选择。

🧩附录


相关推荐
亿佛几秒前
自动驾驶仿真:软件在环(SIL)测试详解(精简版入门)
人工智能·机器学习·自动驾驶
少喝冰美式17 分钟前
大语言模型在序列推荐中的应用
人工智能·程序人生·自然语言处理·大模型·大语言模型·计算机技术·大模型应用
DisonTangor21 分钟前
AMD-OLMo:在 AMD Instinct MI250 GPU 上训练的新一代大型语言模型。
人工智能·语言模型·自然语言处理
Q81375746027 分钟前
探索金融科技:民锋科技如何利用数据驱动投资策略
人工智能·科技·金融
深圳市青牛科技实业有限公司29 分钟前
【青牛科技】 GC6153——TMI8152 的不二之选,可应用于摇头机等产品中
人工智能·科技·单片机·嵌入式硬件·新能源·摇头机
人工智障调包侠39 分钟前
Pytorch从0复现worc2vec skipgram模型及fasttext训练维基百科语料词向量演示
人工智能·pytorch·自然语言处理·nlp·word2vec·词向量·skipgram
Chef_Chen41 分钟前
从0开始机器学习--Day16--神经网络作业
人工智能·神经网络·机器学习
love_and_hope1 小时前
Pytorch学习--神经网络--利用GPU训练
人工智能·pytorch·python·神经网络·学习·数据挖掘
边缘计算社区1 小时前
边缘计算与推理算力:智能时代的加速引擎
人工智能·边缘计算
OpenInfra1 小时前
九州未来再度入选2024边缘计算TOP100
人工智能·边缘计算