AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.05.05-2024.05.10

文章目录~

[1.Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?](#1.Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?)
[2.Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference](#2.Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference)
[3.Can large language models understand uncommon meanings of common words?](#3.Can large language models understand uncommon meanings of common words?)
[4.Large Language Model Enhanced Machine Learning Estimators for Classification](#4.Large Language Model Enhanced Machine Learning Estimators for Classification)
[5.Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models](#5.Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models)
[6.ADELIE: Aligning Large Language Models on Information Extraction](#6.ADELIE: Aligning Large Language Models on Information Extraction)
[7.P-ICL: Point In-Context Learning for Named Entity Recognition with Large Language Models](#7.P-ICL: Point In-Context Learning for Named Entity Recognition with Large Language Models)
[8.APrompt4EM: Augmented Prompt Tuning for Generalized Entity Matching](#8.APrompt4EM: Augmented Prompt Tuning for Generalized Entity Matching)
[9.Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks](#9.Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks)
[10.CourseGPT-zh: an Educational Large Language Model Based on Knowledge Distillation Incorporating Prompt Optimization](#10.CourseGPT-zh: an Educational Large Language Model Based on Knowledge Distillation Incorporating Prompt Optimization)
[11.Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures](#11.Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures)
[12.A Causal Explainable Guardrails for Large Language Models](#12.A Causal Explainable Guardrails for Large Language Models)
[13.FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference](#13.FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference)
[14.ERATTA: Extreme RAG for Table To Answers with Large Language Models](#14.ERATTA: Extreme RAG for Table To Answers with Large Language Models)
[15.Collage: Light-Weight Low-Precision Strategy for LLM Training](#15.Collage: Light-Weight Low-Precision Strategy for LLM Training)
[16.Enhancing Q-Learning with Large Language Model Heuristics](#16.Enhancing Q-Learning with Large Language Model Heuristics)
[17.Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning](#17.Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning)
[18.CRAFT: Extracting and Tuning Cultural Instructions from the Wild](#18.CRAFT: Extracting and Tuning Cultural Instructions from the Wild)
[19.Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation](#19.Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation)
[20.IceFormer: Accelerated Inference with Long-Sequence Transformers on CPUs](#20.IceFormer: Accelerated Inference with Long-Sequence Transformers on CPUs)
[21.Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs](#21.Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs)

1.Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

标题:根据新知识对 LLM 进行微调会产生幻觉吗？
author:Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, Jonathan Herzig
date Time:2024-05-09

paper pdf:http://arxiv.org/pdf/2405.05904v2

摘要：

当大型语言模型通过有监督的微调进行调整时，它们可能会遇到未通过预训练获得的新事实信息。人们经常猜测，这会让模型产生幻觉，做出与事实不符的回答，因为模型在训练中生成的事实并不基于其预先存在的知识。在这项工作中，我们将研究这种接触新知识的行为对微调模型利用原有知识的能力的影响。为此，我们设计了一个以闭卷 QA 为重点的受控设置，其中我们改变了引入新知识的微调示例的比例。我们证明，大型语言模型很难通过微调获得新的事实知识，因为引入新知识的微调示例的学习速度明显慢于与模型知识一致的示例。然而，我们还发现，随着包含新知识的例子最终被学习到，它们会线性地增加模型产生幻觉的倾向。综上所述，我们的研究结果凸显了通过微调引入新事实知识的风险，并支持这样一种观点，即大型语言模型大多通过预训练获得事实知识，而微调则教会它们更有效地使用这些知识。

2.Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

标题:利用视觉标记抽取提升多模态大型语言模型，实现快速推理
author:Zhihang Lin, Mingbao Lin, Luxi Lin, Rongrong Ji
date Time:2024-05-09

paper pdf:http://arxiv.org/pdf/2405.05803v1

摘要：

多模态大语言模型（MLLM）由于需要大量参数和额外的输入标记来表示视觉信息，因此推理时需要大量计算。在此，我们介绍了视觉标记撤回（VTW），这是一个即插即用的模块，用于提高 MLLM 的快速推理能力。我们的方法受到我们观察到的两个有趣现象的启发：(1) LLMs 中普遍存在的注意力下沉现象在 MLLMs 中也同样存在，这表明初始标记和最近的标记获得了大部分注意力，而中间视觉标记在深层获得的注意力极少；(2) 信息迁移的存在，这意味着视觉信息在 MLLMs 的前几层转移到了后续文本标记上。根据我们的研究结果，我们得出结论：视觉标记在 MLLM 的深层是不必要的。因此，我们策略性地在某一层撤回了视觉标记，只让文本标记参与后续层。为了确定撤出视觉标记的理想层，我们首先分析了一组有限的微小数据集，然后选择符合库尔贝-莱布勒发散标准的第一层。我们的 VTW 方法可以在保持性能的同时，将各种多模态任务的计算开销减少 40% 以上。我们的代码发布于 https://github.com/lzhxmu/VTW。

3.Can large language models understand uncommon meanings of common words?

标题:大型语言模型能否理解普通词语的不常见含义？
author:Jinyang Wu, Feihu Che, Xinxin Zheng, Shuai Zhang, Ruihan Jin, Shuai Nie, Pengpeng Shao, Jianhua Tao
date Time:2024-05-09

paper pdf:http://arxiv.org/pdf/2405.05741v1

摘要：

像 ChatGPT 这样的大型语言模型（LLMs）在智能对话和自主代理等各种自然语言理解（NLU）任务中取得了显著进步。然而，由于缺乏得到广泛认可的测试机制，"LLM 究竟是随机鹦鹉还是真正理解世界 "的答案仍不明确，从而引发了大量研究和激烈争论。目前的研究主要集中在表层的无语言障碍环境，而忽视了细粒度的探索。然而，这种探索对于理解其独特的理解机制、与人类认知保持一致，以及最终提高 LLMs 的一般 NLU 能力至关重要。为了填补这一空白，我们的研究深入探讨了 LLMs 细致入微的语义理解能力，尤其是对具有不常见含义的常见词语的理解能力。这一想法源于心理学中人类交流的基本原则，这些原则强调对词语语义的准确共同理解。具体来说，本文提出了创新性的词义理解（Lexical Semantic Comprehension，LeSC）数据集构建方法和新颖的评估指标，这是首个包含细粒度和跨语言维度的基准。我们引入了开源和闭源、不同规模和架构的模型，通过广泛的实证实验证明了现有模型在这一基本词义理解任务中的劣势。值得注意的是，即使是最先进的 LLM GPT-4 和 GPT-3.5 也分别落后于 16 岁的人类 3.9% 和 22.3%。此外，还引入了多种先进的提示技术和检索增强生成技术来帮助缓解这一问题，但局限性依然存在。通过强调上述关键缺陷，本研究激发了进一步研究的动力，并为开发更智能的 LLM 提供了新的见解。

4.Large Language Model Enhanced Machine Learning Estimators for Classification

标题:用于分类的大型语言模型增强型机器学习估算器
author:Yuhang Wu, Yingfei Wang, Chu Wang, Zeyu Zheng
date Time:2024-05-08

paper pdf:http://arxiv.org/pdf/2405.05445v1

摘要：

预先训练的大型语言模型（LLM）已成为一种强大的工具，可用于模拟各种场景，并根据特定指令和多模态输入生成输出结果。在这项工作中，我们分析了如何具体利用 LLM 来增强用于分类问题的经典监督机器学习方法。我们提出了几种将 LLM 集成到经典机器学习估计器中的方法，以进一步提高预测性能。我们通过标准的监督学习二元分类任务，以及测试数据观察到的分布与训练数据相比发生变化的迁移学习任务，检验了所提方法的性能。我们使用四个公开数据集进行了数值实验，结果表明，使用 LLM 增强经典机器学习估计器可以显著提高预测性能。

5.Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

标题:寻找 Magikarp：自动检测大型语言模型中训练不足的时标
author:Sander Land, Max Bartolo
publish:16 pages, 4 figures. For associated code, see

https://github.com/cohere-ai/magikarp/
date Time:2024-05-08

paper pdf:http://arxiv.org/pdf/2405.05417v1

摘要：

众所周知，语言模型中标记符创建和模型训练之间的脱节会导致某些输入，如臭名昭著的 SolidGoldMagikarp 标记符，诱发不希望出现的行为。虽然在各种不同的模型中都观察到了这种存在于标记符号生成器词汇中，但在训练中几乎或完全不存在的 "突发性标记符号"，但一直缺少一种一致的方法来识别它们。我们介绍了对大语言模型（LLM）标记化器的全面分析，特别是针对检测未训练和训练不足标记的问题。通过结合标记符分析、基于模型权重的指标和提示技术，我们开发出了自动检测这些问题标记符的有效方法。我们的研究结果表明了此类标记在各种模型中的普遍性，并为提高语言模型的效率和安全性提供了启示。

6.ADELIE: Aligning Large Language Models on Information Extraction

标题:ADELIE：在信息提取中对齐大型语言模型
author:Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
date Time:2024-05-08

paper pdf:http://arxiv.org/pdf/2405.05008v1

摘要：

大型语言模型（LLMs）通常在信息提取（IE）任务中表现不佳，难以遵循 IE 任务的复杂指令。这主要是因为 LLM 没有与人类对齐，而主流对齐数据集通常不包括 IE 数据。在本文中，我们介绍了ADELIE（Aligning large language moDELs on Information Extraction），一种能有效解决各种IE任务（包括封闭式IE、开放式IE和按需IE）的对齐LLM。我们首先收集并构建了高质量的 IE 对齐语料库 IEInstruct，用于 IE。然后，我们在 IEInstruct 上使用指令调整训练 ADELIE_SFT。我们进一步用直接偏好优化（DPO）目标训练 ADELIE_SFT，得到 ADELIE_DPO。在各种保留的 IE 数据集上进行的广泛实验表明，我们的模型（ADELIE_SFT 和 ADELIE_DPO）在开源模型中达到了最先进的（SoTA）性能。我们进一步探索了 ADELIE 的一般能力，实验结果表明它们的一般能力并没有出现明显的下降。我们将发布代码、数据和模型，以促进进一步的研究。

7.P-ICL: Point In-Context Learning for Named Entity Recognition with Large Language Models

标题:P-ICL：利用大型语言模型进行命名实体识别的点式上下文学习
author:Guochao Jiang, Zepeng Ding, Yuchen Shi, Deqing Yang
date Time:2024-05-08

paper pdf:http://arxiv.org/pdf/2405.04960v1

摘要：

近年来，大型语言模型（LLM）的兴起使得通过上下文学习（ICL），在没有任何示范样本或仅使用少量样本的情况下直接实现命名实体识别（NER）成为可能。然而，标准的 ICL 只能帮助 LLM 理解任务指令、格式和输入标签映射，却忽视了 NER 任务本身的特殊性。在本文中，我们提出了一种新的提示框架 P-ICL，以更好地利用 LLM 实现 NER，其中一些点实体被用作识别每种实体类型的辅助信息。有了这些重要信息，LLM 可以更精确地实现实体分类。为了获得最佳的点实体来提示 LLM，我们还提出了一种基于 K-Means 聚类的点实体选择方法。我们在一些有代表性的 NER 基准上进行了大量实验，验证了我们提出的 P-ICL 和点实体选择策略的有效性。

8.APrompt4EM: Augmented Prompt Tuning for Generalized Entity Matching

标题:APrompt4EM：通用实体匹配的增强提示调整
author:Yikuan Xia, Jiazun Chen, Xinchi Li, Jun Gao
date Time:2024-05-08

paper pdf:http://arxiv.org/pdf/2405.04820v1

摘要：

通用实体匹配（GEM）旨在判断以不同格式表示的两条记录是否指的是同一个现实世界实体，是数据管理中的一项重要任务。预训练语言模型（PLMs）的提示调整范式，包括最近的 PromptEM 模型，有效地解决了实际应用中低资源通用实体匹配的难题，在标注数据稀缺的情况下提供了稳健的解决方案。然而，现有的 GEM 提示调整模型面临着提示设计和信息差距的挑战。本文针对这些挑战提出了一个增强型提示调整框架，主要包括两方面的改进。首先是一种基于语境的增强型软标记提示调整方法，该方法可为 PLM 的提示调整提取指导性软标记效益；其次是一种利用大型语言模型（LLM）的经济高效的信息增强策略。我们的方法在低资源 GEM 挑战中表现出色。广泛的实验表明，与基于中等规模 PLM 的现有方法相比，我们的基本模型在不进行信息增强的情况下取得了可喜的进步（平均 5.24% 以上），而我们的模型在进行信息增强的情况下取得了与微调 LLM 相当的性能，使用的 API 费用不到 14%。

9.Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks

标题:利用大型语言模型生成合成数据，提高基于 BERT 的神经网络的性能
author:Chancellor R. Woolsey, Prakash Bisht, Joshua Rothman, Gondy Leroy
publish:Published in 2024 American Medical Informatics Association (AMIA)

Summit March 18-21
date Time:2024-05-08

paper pdf:http://arxiv.org/pdf/2405.06695v1

摘要：

影响医疗保健的一个重要问题是缺乏可用的专家。机器学习 (ML) 模型可以帮助诊断病人，从而解决这一问题。然而，创建足够大的数据集来训练这些模型成本高昂。我们评估了用于创建数据的大型语言模型（LLM）。利用自闭症谱系障碍（ASD），我们促使 ChatGPT 和 GPT-Premium 生成 4,200 个合成观察结果，以扩充现有的医疗数据。我们的目标是标注与自闭症标准相对应的行为，并通过合成训练数据提高模型的准确性。我们使用在生物医学文献中预先训练的 BERT 分类器来评估不同模型之间的性能差异。临床医生对 LLM 生成数据中的随机样本（N=140）进行了评估，发现其中包含 83% 正确的示例-标签对。增强数据使召回率提高了 13%，但精确度却降低了 16%，这与数据对的质量较高和精确度较低有关。未来的工作将分析不同的合成数据特征如何影响 ML 结果。

10.CourseGPT-zh: an Educational Large Language Model Based on Knowledge Distillation Incorporating Prompt Optimization

标题:CourseGPT-zh：基于知识提炼和提示优化的教育大语言模型
author:Zheyan Qu, Lu Yin, Zitong Yu, Wenbo Wang, Xing zhang
date Time:2024-05-08

paper pdf:http://arxiv.org/pdf/2405.04781v1

摘要：

大型语言模型（LLM）在自然语言处理（NLP）任务中表现出了惊人的能力，激发了人们将其应用于具有更高专业要求的专业领域的兴趣。然而，通过应用程序接口（API）访问闭源 LLM 的限制，以及收集大规模高质量数据集的困难，都对在教育领域的各种课程中开发大型语言模型构成了障碍。鉴于这些挑战，我们提出了 CourseGPT-zh，一种面向课程的教育 LLM，支持定制和低成本部署。为了满足特定课程语料库的全面性和多样性要求，我们设计了一个高质量的问题解答语料库提炼框架，该框架结合了提示优化功能，可有效挖掘课本知识并增强其多样性。此外，考虑到 LLM 答案与用户需求的一致性，我们还介绍了一种基于 LLM 即法官的离散提示优化新方法。在优化过程中，该框架充分利用了 LLM 反思和利用错误反馈和模式的能力，从而使提示既能满足用户需求和偏好，又能节省回答长度。最后，我们在开源 LLM 的基础上，利用参数高效微调技术获得了 CourseGPT-zh。实验结果表明，我们的离散提示优化框架有效提高了 ChatGPT 的响应质量，CourseGPT-zh 在专业知识问题解答方面表现出很强的专业能力，明显优于同类开源模型。

11.Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures

标题:在基于边缘的内存计算架构上稳健实现检索增强生成
author:Ruiyang Qin, Zheyu Yan, Dewen Zeng, Zhenge Jia, Dancheng Liu, Jianbo Liu, Zhi Zheng, Ningyuan Cao, Kai Ni, Jinjun Xiong, Yiyu Shi
date Time:2024-05-07

paper pdf:http://arxiv.org/pdf/2405.04700v1

摘要：

部署在边缘设备上的大型语言模型 (LLM) 通过微调和更新其部分参数来学习。虽然这种学习方法可以通过优化来降低资源利用率，但总体所需资源仍然是边缘设备的沉重负担。相反，检索增强生成（RAG）作为一种资源节约型 LLM 学习方法，可以在不更新模型参数的情况下提高 LLM 生成内容的质量。不过，基于 RAG 的 LLM 可能会在用户与 LLM 的每次交互中重复搜索配置文件数据。随着用户数据的积累，这种搜索可能会导致严重的延迟。为了减少延迟，传统的做法是限制所保存用户数据的大小，从而随着用户数据的不断增长而降低 RAG 的可扩展性。如何使 RAG 摆脱延迟和可扩展性对边缘设备的限制，这仍然是一个未决问题。在本文中，我们提出了一种通过内存计算（CiM）架构加速 RAG 的新型框架。它通过在内存中执行原位计算来加速矩阵乘法，同时避免了计算单元和内存之间昂贵的数据传输。我们的框架--基于 CiM 的鲁棒 RAG（Robust CiM-backed RAG，RoCR）--利用一种新颖的基于对比学习的训练方法和噪声感知训练，可以使 RAG 通过 CiM 高效地搜索剖面数据。据我们所知，这是第一项利用 CiM 加速 RAG 的工作。

12.A Causal Explainable Guardrails for Large Language Models

标题:大型语言模型的因果可解释护栏
author:Zhixuan Chu, Yan Wang, Longfei Li, Zhibo Wang, Zhan Qin, Kui Ren
publish:23 pages
date Time:2024-05-07

paper pdf:http://arxiv.org/pdf/2405.04160v1

摘要：

大型语言模型（LLM）在自然语言任务中表现出了令人印象深刻的性能，但其输出可能表现出不理想的属性或偏差。现有的引导 LLM 实现理想属性的方法通常假定 LLM 的表征是无偏差的，并完全依赖于引导提示。然而，从预训练中学到的表征可能会引入语义偏差，影响引导过程，从而导致次优结果。我们提出的 LLMGuardaril 是一个新颖的框架，它结合了因果分析和对抗学习，可在 LLM 中获得无偏见的转向表征。LLMGuardaril 能系统地识别和阻止偏差的混杂效应，从而提取无偏的转向表示。此外，LLMGuardaril 还包含一个可解释的组件，可深入了解生成的输出与所需方向之间的一致性。实验证明，LLMGuardaril 能有效地将 LLM 引导到所需的属性，同时减少偏差。我们的工作有助于开发安全可靠、符合预期属性的 LLM。我们讨论了研究的局限性和未来的研究方向，强调了持续研究大型语言模型的伦理意义的必要性。

13.FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference

标题:FlashBack：针对长语境推理的高效检索增强语言建模
author:Runheng Liu, Xingchen Xiao, Heyan Huang, Zewen Chi, Zhijing Wu
publish:14 pages
date Time:2024-05-07

paper pdf:http://arxiv.org/pdf/2405.04065v3

摘要：

通过将大型语言模型（LLM）与外部语料库中的相关文档进行整合来实现检索增强语言建模（RALM），是一种行之有效的方法，可使 LLM 生成超出其预训练语料库范围的信息。以往的工作通过简单地将检索到的内容预置到输入中来利用检索到的内容，这带来了一个很高的运行时间问题，降低了 LLM 的推理效率，因为它们不能有效地使用键值（KV）缓存。在本文中，我们提出了一种模块化的 RALM--FlashBack，它旨在提高具有附加上下文模式的 RALM 的推理效率，同时在通过低库自适应进行微调后保持良好的性能。FlashBack 将检索到的文档追加到上下文的末尾，以有效利用 KV 缓存，而不是将其预置。我们还引入了标记标记符号（Marking Token）作为两个特殊的提示标记符号，用于在微调过程中标记附加上下文的边界。我们的生成质量测试实验表明，FlashBack 可以在复杂度下保持良好的生成质量。在运行时测试中，FlashBack 的推理速度比 7B LLM（Llama 2）上的预拼写推理速度最多快 4 倍。通过绕过不必要的重新计算，FlashBack 的推理速度明显提高，这种效率的提高将大大降低推理成本。

14.ERATTA: Extreme RAG for Table To Answers with Large Language Models

标题:ERATTA：使用大型语言模型处理表到答案的极端 RAG
author:Sohini Roychowdhury, Marko Krema, Anvar Mahammad, Brian Moore, Arijit Mukherjee, Punit Prakashchandra
publish:5 pages, 3 tables, Asilomar SSC Conference, 2024
date Time:2024-05-07

paper pdf:http://arxiv.org/pdf/2405.03963v2

摘要：

近年来，带有检索增强生成（RAG）功能的大型语言模型（LLM）一直是可扩展生成式人工智能解决方案的最佳选择。然而，将 RAG 与 LLM 相结合的用例要么是通用的，要么是极其特定的领域，从而对 RAG-LLM 方法的可扩展性和通用性提出了质疑。在这项工作中，我们提出了一种独特的基于 LLM 的系统，在该系统中，可以调用多个 LLM 来实现数据验证、用户查询路由、数据检索和自定义提示，以便从高度变化且规模庞大的数据表中获得问题解答功能。我们的系统经过调整，可从企业级数据产品中提取信息，并在 10 秒内提供实时回复。一个提示管理用户到数据的身份验证，随后的三个提示用于路由、获取数据和生成可定制的提示自然语言回复。此外，我们还提出了一个五项指标评分模块，用于检测和报告 LLM 响应中的幻觉。我们提出的系统和评分标准在可持续发展、金融健康和社交媒体领域的数百个用户查询中取得了大于 90% 的置信度。对所提出的极端 RAG 架构进行扩展，可以使用 LLM 进行异构源查询。

15.Collage: Light-Weight Low-Precision Strategy for LLM Training

标题:拼贴：用于 LLM 培训的轻量级低精度策略
author:Tao Yu, Gaurav Gupta, Karthick Gopalswamy, Amith Mamidala, Hao Zhou, Jeffrey Huynh, Youngsuk Park, Ron Diamant, Anoop Deoras, Luke Huan
publish:ICML 2024
date Time:2024-05-06

paper pdf:http://arxiv.org/pdf/2405.03637v1

摘要：

大型模型的训练受到计算成本高和硬件内存有限的困扰。一个实用的解决方案是采用低精度表示法，但这一方法存在数值精度损失和训练不稳定的问题，从而降低了模型的实用性。我们认为，只要在训练过程中的关键位置对误差进行适当补偿，低精度浮点运算就能表现出色。我们提出了 Collage 方案，利用低精度多分量浮点表示法，在考虑到数值误差的情况下准确执行运算。为了了解不精确度对训练的影响，我们提出了一个简单而新颖的指标，用于跟踪训练过程中丢失的信息，并区分各种精确度策略。我们的方法适用于常用的低精度，如半精度（16 美元位浮点），并可自然扩展到更低精度，如 8 美元位。实验结果表明，使用Collage进行预训练无需使用32美元位浮点模型副本，与（16, 32）美元位混合精度策略相比，可获得相似/更好的训练性能，速度最多可提高3.7倍，实际内存使用量可减少15%到23%。

16.Enhancing Q-Learning with Large Language Model Heuristics

标题:利用大型语言模型启发法增强 Q-Learning
author:Xiefeng Wu
publish:Note:Arxiv,Draft
date Time:2024-05-06

paper pdf:http://arxiv.org/pdf/2405.03341v3

摘要：

Q-learning 擅长在连续决策任务中从反馈中学习，但往往需要大量采样才能取得显著改进。虽然奖励塑造可以提高学习效率，但基于非电位的方法会引入影响性能的偏差，而基于电位的奖励塑造虽然没有偏差，但缺乏为状态-行动对提供启发式方法的能力，从而限制了其在复杂环境中的有效性。大型语言模型（LLM）可以在较简单的任务中实现零点学习，但推理速度较低，偶尔会出现幻觉。为了应对这些挑战，我们提出了 textbf{LLM-guided Q-learning}，这是一个利用 LLM 作为启发式方法来帮助学习强化学习的 Q 函数的框架。我们的理论分析表明，这种方法可以适应幻觉，提高采样效率，并避免最终性能偏差。实验结果表明，我们的算法具有通用性和鲁棒性，能够防止无效探索。

17.Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning

标题:利用检索增强型持续提示学习为终身学习者编辑知识
author:Qizhou Chen, Taolin Zhang, Xiaofeng He, Dongyang Li, Chengyu Wang, Longtao Huang, Hui Xue
publish:14 pages, 4 figures, 6 tables
date Time:2024-05-06

paper pdf:http://arxiv.org/pdf/2405.03279v2

摘要：

模型编辑旨在纠正大型语言模型（LLM）中过时或错误的知识，而无需进行昂贵的重新训练。终身模型编辑是满足 LLMs 持续编辑要求的最具挑战性的任务。之前的工作主要集中在单次或批量编辑上；然而，由于灾难性的知识遗忘和模型性能的下降，这些方法在终身编辑场景中并不适用。虽然基于检索的方法可以缓解这些问题，但将检索到的知识整合到模型中的过程缓慢而繁琐，阻碍了这些方法的发展。在这项工作中，我们引入了RECIPE--一种RetriEval-augmented ContInuous Prompt lEarning方法，以提高终身学习中的编辑效率和推理效率。RECIPE 首先将知识语句转换为简短、翔实的连续提示，并在 LLM 的输入查询嵌入中添加前缀，以有效地完善基于知识的响应。它还进一步整合了知识哨兵（KS），作为计算动态阈值的中介，确定检索库是否包含相关知识。我们对检索器和提示编码器进行了联合训练，以实现编辑特性，即可靠性、通用性和定位性。在我们的实验中，RECIPE 在多个 LLM 和编辑数据集上进行了广泛评估，取得了优异的编辑性能。RECIPE 还展示了它在保持 LLM 整体性能的同时，还能保持快速编辑和推理速度的能力。

18.CRAFT: Extracting and Tuning Cultural Instructions from the Wild

标题:CRAFT：从野外提取和调整文化指令
author:Bin Wang, Geyu Lin, Zhengyuan Liu, Chengwei Wei, Nancy F. Chen
publish:6 pages
date Time:2024-05-06

paper pdf:http://arxiv.org/pdf/2405.03138v1

摘要：

大型语言模型（LLMs）作为各种自然语言处理（NLP）应用的基础得到了迅速发展。尽管这些模型的使用范围很广，但它们对文化相关概念和推理的理解仍然有限。同时，亟需增强这些模型的文化推理能力，尤其是在代表性不足的地区。本文介绍了一种从庞大的非结构化语料库中提取高质量、与文化相关的指令调整数据集的新型管道。我们利用自我指令生成管道来识别文化概念并触发指令。通过与通用指令调整数据集的整合，我们的模型在识别和理解地区文化细微差别方面展示了更强的能力，从而增强了其推理能力。我们在三个地区进行了实验：我们在新加坡、菲律宾和美国三个地区进行了实验，取得了高达 6% 的性能提升。我们的研究为直接从非结构化数据中提取文化指令调整集开辟了新途径，为该领域未来的创新开创了先河。

19.Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation

标题:利用基于 AMR 的概念提炼法压缩长语境以增强 RAG
author:Kaize Shi, Xueyao Sun, Qing Li, Guandong Xu
date Time:2024-05-06

paper pdf:http://arxiv.org/pdf/2405.03085v1

摘要：

大型语言模型（LLM）在信息获取方面取得了长足进步。然而，过度依赖可能存在缺陷的参数知识会导致幻觉和不准确，尤其是在处理长尾、特定领域查询时。检索增强生成（RAG）通过结合外部非参数知识解决了这一局限性。然而，检索到的长上下文文档往往包含嘈杂、不相关的信息以及重要的知识，从而削弱了 LLM 的注意力。受基本概念在个人阅读理解中的支持作用的启发，我们提出了一种新颖的基于概念的 RAG 框架和基于抽象意义表征（AMR）的概念提炼算法。所提出的算法通过参考可靠的语言特征，将杂乱无章的原始检索文档压缩成一组紧凑的关键概念，这些概念是从 AMR 的信息节点中提炼出来的。这些概念明确限制了 LLM 在推理过程中只关注重要信息。我们在开放领域的问题解答数据集上进行了广泛的实验，对所提出方法的有效性进行了实证评估。结果表明，基于概念的 RAG 框架优于其他基线方法，尤其是当支持文档的数量增加时，同时在各种骨干 LLM 中也表现出鲁棒性。这强调了经过提炼的概念对于通过过滤干扰信息来增强 RAG 流程具有重要意义。据我们所知，这是第一项引入 AMR 来增强 RAG 的工作，为利用基于语义的上下文压缩来增强推理性能提供了一个潜在的解决方案。

20.IceFormer: Accelerated Inference with Long-Sequence Transformers on CPUs

标题:IceFormer：利用 CPU 上的长序列变换器加速推理
author:Yuzhen Mao, Martin Ester, Ke Li
date Time:2024-05-05

paper pdf:http://arxiv.org/pdf/2405.02842v1

摘要：

现有的基于变形金刚的模型有一个局限性，那就是它们无法处理超长序列输入，因为它们的自注意操作会表现出二次时间和空间复杂性。在仅配备 CPU 的硬件平台上部署变换器时，这一问题变得尤为突出。为解决这一问题，我们提出了一种在推理时加速自注意的新方法，该方法可与预训练的 Transformer 模型一起使用，无需重新训练。我们在各种基准测试中使用我们的方法来加速各种长序列变换器，包括基于 LLaMA 2 的领先 LLM，结果表明速度提高了 2.73-7.63 倍，同时保留了原始预训练模型 98.6%-99.6% 的准确性。代码可在我们的项目网站 https://yuzhenmao.github.io/IceFormer/ 上获取。

21.Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs

标题:少花钱，多办事：在 LLM 中选择有原则的数据进行预热微调
author:Feiyang Kang, Hoang Anh Just, Yifan Sun, Himanshu Jahagirdar, Yuanzhi Zhang, Rongxing Du, Anit Kumar Sahu, Ruoxi Jia
publish:Published as a conference paper at ICLR 2024
date Time:2024-05-05

paper pdf:http://arxiv.org/pdf/2405.02774v1

摘要：

这项工作的重点是从大量未标记的开放数据中进行利用和选择，对预先训练好的语言模型进行预微调。其目标是在达到预期性能水平的同时，最大限度地减少对昂贵的特定领域数据进行后续微调的需求。虽然许多数据选择算法都是为小规模应用而设计的，因此不适合我们的语境，但一些新兴方法确实能满足语言数据规模的需求。不过，它们通常优先考虑与目标分布一致的数据。虽然这种策略在从头开始训练模型时可能会很有效，但当模型已经在不同的分布上进行过预训练时，其结果就会很有限。与之前的工作不同，我们的主要想法是选择能使预训练分布更接近目标分布的数据。我们展示了这种方法在特定条件下对微调任务的最优性。我们展示了我们的方法在各种任务（NLU、NLG、0-shot）中的有效性，模型高达 2.7B，表明它始终超越其他选择方法。此外，我们提出的方法明显快于现有技术，在一个 GPU 小时内就能处理数百万个样本。我们的代码是开源的（代码库：https://anonymous.4open.science/r/DV4LLM-D761/ ）。虽然微调技术在提高不同任务的性能方面具有巨大潜力，但其相关成本往往限制了它的广泛应用；我们希望通过这项工作，为经济高效的微调技术奠定基础，使其优势更容易获得。