AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.01.20-2024.01.31

1.KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

标题:KVQuant：利用 KV 缓存量化实现千万级上下文长度 LLM 推断
author:Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael W. Mahoney, Yakun Sophia Shao, Kurt Keutzer, Amir Gholami
date Time:2024-01-31

paper pdf:http://arxiv.org/pdf/2401.18079v2

摘要：

文档分析和摘要等需要大上下文窗口的应用越来越多地使用 LLM，而在这些大上下文窗口中，KV 缓存激活是推理过程中内存消耗的主要原因。量化是压缩 KV 缓存激活的一种有前途的方法；然而，现有的解决方案无法在超低精度（如亚 4 位）下准确表示激活。在这项工作中，我们提出了 KVQuant，通过采用新方法对缓存 KV 激活进行量化来解决这一问题，其中包括(i) 每通道密钥量化，我们调整量化密钥激活的维度，以更好地匹配分布；(ii) Pre-RoPE 密钥量化，我们在旋转位置嵌入之前量化密钥激活，以减轻其对量化的影响；(iii) 非均匀 KV 缓存量化，我们推导出每层灵敏度加权的非均匀数据类型，以更好地表示分布；(iv) 每矢量密集解析量化（Per-Vector Dense-and-Sparse Quantization），我们为每个矢量单独隔离异常值，以尽量减少量化范围的偏斜；以及 (v) Q-Norm，我们对量化中心点进行归一化，以减轻分布偏移，为 2 位量化提供额外的好处。通过将我们的方法应用于 LLaMA、LLaMA-2 和 Mistral 模型，我们在 Wikitext-2 和 C4 上用 3 位量化实现了 <0.1$ 的迷惑度下降，优于现有方法。我们的方法使 LLaMA-7B 模型在单个 A100-80GB GPU 上的上下文长度达到 100 万，在 8GPU 系统上达到 1000 万。

2.SWEA: Changing Factual Knowledge in Large Language Models via Subject Word Embedding Altering

标题:SWEA：通过主题词嵌入改变大型语言模型中的事实知识
author:Xiaopeng Li, Shasha Li, Shezheng Song, Huijun Liu, Bin Ji, Xi Wang, Jun Ma, Jie Yu, Xiaodong Liu, Jing Wang, Weimin Zhang
date Time:2024-01-31

paper pdf:http://arxiv.org/pdf/2401.17809v2

摘要：

模型编辑近来受到广泛关注。目前的模型编辑方法主要涉及修改模型参数或为现有模型添加额外模块。然而，前者会对大型语言模型（LLM）造成不可逆的破坏，后者会产生额外的推理开销，而且模糊向量匹配并不总是可靠的。为了解决这些问题，我们提出了一个可扩展的主题词嵌入改变（SWEA）框架，该框架通过字符级键值匹配找到融合嵌入，并将其添加到 Transformer 输入中的主题词嵌入中。为了得到这些融合嵌入词，我们提出了先优化后抑制的融合方法，该方法首先优化编辑目标的可学习嵌入向量，然后抑制知识嵌入维度（KED），从而得到最终的融合嵌入词。因此，我们提出了用于编辑 LLM 中事实知识的 SWEA ⊕ \oplus ⊕OS 方法。我们在 COUNTERFACT 和 zsRE 数据集上展示了 SWEA ⊕ \oplus ⊕OS 的整体一流（SOTA）性能。为了进一步验证SWEA ⊕ \oplus ⊕OS在编辑知识方面的推理能力，我们在更为复杂的RippleEdits基准上对其进行了评估。结果表明，SWEA o p l u s oplus oplusOS具备SOTA推理能力。

3.Two Heads Are Better Than One: Integrating Knowledge from Knowledge Graphs and Large Language Models for Entity Alignment

标题:双管齐下：整合知识图谱和大型语言模型中的知识，实现实体对齐
author:Linyao Yang, Hongyang Chen, Xiao Wang, Jing Yang, Fei-Yue Wang, Han Liu
date Time:2024-01-30

paper pdf:http://arxiv.org/pdf/2401.16960v1

摘要：

实体对齐是创建更全面的知识图谱（KG）的先决条件，它涉及在不同的知识图谱中找出等同的实体。当代的实体配准方法主要利用知识嵌入模型来获得实体嵌入，这些嵌入囊括了各种相似性--结构性、关系性和属性性。然后通过基于注意力的信息融合机制对这些嵌入进行整合。尽管取得了这一进展，但由于固有的异质性，有效利用多方面信息仍具有挑战性。此外，虽然大型语言模型（LLM）通过隐式捕捉实体语义在各种下游任务中表现出了卓越的性能，但这种隐式知识尚未被用于实体配准。在本研究中，我们提出了一个大语言模型增强实体对齐框架（LLMEA），将 KG 的结构知识与 LLM 的语义知识整合在一起，以增强实体对齐。具体来说，LLMEA 通过考虑跨 KG 实体间的嵌入相似性以及与虚拟等效实体的编辑距离，为给定实体确定候选对齐方式。然后，它与 LLM 反复接触，提出多个多选问题，以利用 LLM 的推理能力。等效实体的最终预测结果来自 LLM 的输出。在三个公共数据集上进行的实验表明，LLMEA 超越了领先的基线模型。更多的消融研究强调了我们提出的框架的有效性。

4.Breaking Free Transformer Models: Task-specific Context Attribution Promises Improved Generalizability Without Fine-tuning Pre-trained LLMs

标题:打破自由转换器模型：特定任务情境归因有望提高通用性，而无需微调预训练 LLM
author:Stepan Tytarenko, Mohammad Ruhul Amin
date Time:2024-01-30

paper pdf:http://arxiv.org/pdf/2401.16638v1

摘要：

在特定数据集上对大型预训练语言模型（LLM）进行微调是自然语言处理（NLP）分类任务中常用的一种策略。然而，这种方法通常会导致模型通用性的损失。在本文中，我们提出了一个可以保持通用性的框架，并通过利用特定任务的上下文归因来提高下游任务的性能。我们表明，使用特定任务概念算子对来自任何转换器模型的文本表示进行线性变换，就能投射到潜在概念空间，本文称之为上下文归因。特定概念算子在监督学习阶段通过新颖的损失函数进行优化。所提出的框架表明，针对每个任务目标的文本表示的上下文归因可以提高判别函数的能力，从而在分类任务中取得更好的性能。在三个数据集（HateXplain、IMDB 评论和社交媒体归因）上的实验结果表明，所提出的模型具有更高的准确性和普适性。具体来说，在 HateXplain 数据集上，我们观察到未经微调的 BERT 的准确率提高了 8%，F1 分数提高了 10%。而在 IMDB 数据集上，经过微调的最先进的 XLNet 在准确率和 F1 分数上都提高了 1%。此外，在一项域外跨数据集测试中，在 IMDB 数据集上进行微调的 DistilBERT 与所提出的模型相结合，使 HateXplain 数据集的 F1 分数提高了 7%。在 YouTube 评论的社交媒体归因数据集上，我们观察到 F1 指标提高了 5.2%。该框架由 PyTorch 实现，并在 GitHub 上开源。

5.Improving Natural Language Capability of Code Large Language Model

标题:提高代码大型语言模型的自然语言能力
author:Wei Li, Daoguang Zan, Bei Guan, Ailun Yu, Xiaolin Chen, Yongji Wang
date Time:2024-01-25

paper pdf:http://arxiv.org/pdf/2401.14242v1

摘要：

代码大型语言模型（Code LLMs）在代码生成方面表现出色。然而，大多数现有研究都侧重于从编程能力的角度提升代码大型语言模型，而对其自然语言能力关注较少。为了填补这一空白，我们提出了一个由两个模块组成的新框架：AttentionExtractor（负责从用户的自然语言需求中提取关键短语）和 AttentionCoder（利用这些提取的短语生成目标代码以解决需求）。通过将代码 LLM 与传统的自然语言处理工具无缝集成，该框架开创了一种创新理念。为了验证该框架的有效性，我们制作了一个新的代码生成基准，称为 MultiNL-H，涵盖五种自然语言。广泛的实验结果证明了我们提出的框架的有效性。

6.Leeroo Orchestrator: Elevating LLMs Performance Through Model Integration

标题:Leeroo Orchestrator：通过模型集成提升 LLM 性能
author:Alireza Mohammadshahi, Ali Shaikh, Majid Yazdani
date Time:2024-01-25

paper pdf:http://arxiv.org/pdf/2401.13979v1

摘要：

在本文中，我们提出了一种架构，利用多个训练有素的 LLM 的集体知识来创造一种新的先进技术。该框架的核心是一个基于 LLM 的协调器，它善于挑选合适的底层 LLM 专家，以优化任务执行。受强化学习中自我游戏的启发，我们创建了一个查询生成、协调和评估的循环，以便为协调器生成训练数据。我们的评估侧重于 MMLU 基准，采用了 Hugging Face 上的 7B、13B 和 34B 参数模型。评估结果展示了最新的开源模型：我们的 Leeroo 协调器的性能与 Mixtral 模型相当，而成本仅为其三分之二。此外，在相同成本水平下，增加允许成本比 Mixtral 的准确率高出 5%，准确率达到 75.9%。在将 GPT4 集成到底层模型池时，观察到了进一步的改进。Leeroo 协调器几乎以一半的成本达到了 GPT4 的性能，甚至超过了 GPT4 的结果，成本降低了 25%。这些发现说明，我们的架构可以通过优化多个 LLM 之间的协同作用，创建最先进、最具成本效益的 LLM，从而实现卓越的性能成果。

7.From Understanding to Utilization: A Survey on Explainability for Large Language Models

标题:从理解到利用：大型语言模型可解释性调查
author:Haoyan Luo, Lucia Specia
date Time:2024-01-23

paper pdf:http://arxiv.org/pdf/2401.12874v1

摘要：

本调查报告深入探讨了大型语言模型（LLMs）的可解释性这一新兴领域，这是自然语言处理的一个重要而又具有挑战性的方面。LLM 在各种应用中发挥着举足轻重的作用，其 "黑箱 "性质引起了人们对透明度和使用道德的担忧。本文强调了增强 LLM 可解释性的必要性，以同时满足公众对这些模型的信任和技术界深入了解这些模型的需求。我们将重点放在基于预训练变换器的 LLM 上，如 LLaMA，由于其规模和复杂性，LLM 面临着独特的可解释性挑战。我们的综述对现有的可解释性方法进行了分类，并讨论了它们在提高模型透明度和可靠性方面的应用。我们还讨论了具有代表性的评估方法，强调了它们的优势和局限性。这项调查的目的是弥合理论理解与实际应用之间的差距，为 LLM 可解释性领域的未来研究与发展提供见解。

8.Analyzing the Effectiveness of Large Language Models on Text-to-SQL Synthesis

标题:分析大型语言模型在文本到 SQL 合成中的有效性
author:Richard Roberson, Gowtham Kaki, Ashutosh Trivedi
date Time:2024-01-22

paper pdf:http://arxiv.org/pdf/2401.12379v1

摘要：

本研究探讨了使用大型语言模型（LLMs）进行文本到 SQL 程序合成的各种方法，重点关注所取得的成果和见解。采用流行的文本到 SQL 数据集 spider，目标是输入一个自然语言问题和数据库模式，并输出正确的 SQL SELECT 查询。最初的方法是对本地开源模型进行微调，以生成 SELECT 查询。QLoRa 在蜘蛛数据集上对 WizardLM 的 WizardCoder-15B 模型进行微调后，生成查询的执行准确率高达 61%。第二种方法是使用经过微调的 gpt-3.5-turbo-16k（Few-shot）+ gpt-4-turbo（Zero-shot 错误纠正），执行准确率高达 82.1%。在所有错误的查询中，大多数都可以分为七种不同的错误类别：选择错误的列或错误的列顺序、按错误的列分组、在条件式中预测错误的值、使用与基本事实不同的聚合、额外或过少的 JOIN 子句、Spider 数据集中的不一致性，以及最后一种完全错误的查询结构。大多数查询（如果不是全部的话）都属于这些类别，这有助于了解 LLM 程序合成的缺陷所在以及可以改进的地方。

9.Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

标题:掌握文本到图像的扩散：使用多模态 LLM 进行重述、规划和生成
author:Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
date Time:2024-01-22

paper pdf:http://arxiv.org/pdf/2401.11708v2

摘要：

扩散模型在文本到图像的生成和编辑方面表现出卓越的性能。然而，现有的方法在处理复杂的文本提示时往往面临挑战，因为这些提示涉及具有多种属性和关系的多个对象。在本文中，我们提出了一种全新的免训练文本到图像生成/编辑框架，即 Recaption、Plan 和 Generate（RPG），利用多模态 LLM 强大的思维链推理能力来增强文本到图像扩散模型的组成性。我们的方法利用多模态 LLM 作为全局规划器，将复杂图像的生成过程分解为子区域内多个较简单的生成任务。我们提出了互补的区域扩散方法，以实现区域组合生成。此外，我们还以闭环方式将文本引导的图像生成和编辑整合到了所提出的 RPG 中，从而增强了泛化能力。广泛的实验证明，我们的 RPG 优于最先进的文本到图像扩散模型，包括 DALL-E 3 和 SDXL，尤其是在多类别对象合成和文本图像语义对齐方面。值得注意的是，我们的 RPG 框架与各种 MLLM 架构（如 MiniGPT-4）和扩散骨干网（如 ControlNet）具有广泛的兼容性。我们的代码可在以下网址获取： https://github.com/YangLing0818/RPG-DiffusionMaster

10.Large Language Model based Multi-Agents: A Survey of Progress and Challenges

标题:基于大型语言模型的多代理：进展与挑战概览
author:Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
date Time:2024-01-21

paper pdf:http://arxiv.org/pdf/2402.01680v1

摘要：

大型语言模型（LLM）在一系列任务中取得了显著的成功。由于 LLM 具有令人印象深刻的规划和推理能力，它们已被用作自主代理来自动完成许多任务。最近，在将一个 LLM 作为单一规划或决策代理的发展基础上，基于 LLM 的多代理系统在复杂问题解决和世界模拟方面取得了长足的进步。为了向社会各界介绍这一充满活力的领域，我们提交了这份调查报告，深入探讨基于 LLM 的多代理系统的基本方面以及面临的挑战。我们的目标是让读者就以下问题获得实质性的见解：基于 LLM 的多代理可以模拟哪些领域和环境？这些代理是如何剖析的？哪些机制有助于提高代理的能力？对于那些有兴趣深入研究这一领域的人，我们还总结了常用的数据集或基准，方便他们查阅。为了让研究人员了解最新研究进展，我们维护了一个开源的 GitHub 存储库，专门用于概述基于 LLM 的多代理系统研究。

11.Using Large Language Model for End-to-End Chinese ASR and NER

标题:使用大语言模型进行端到端中文 ASR 和 NER 分析
author:Yuang Li, Jiawei Yu, Yanqing Zhao, Min Zhang, Mengxin Ren, Xiaofeng Zhao, Xiaosong Qiao, Chang Su, Miaomiao Ma, Hao Yang
date Time:2024-01-21

paper pdf:http://arxiv.org/pdf/2401.11382v1

摘要：

将语音标记映射到与文本标记相同的特征空间已成为将语音模式整合到纯解码器大型语言模型（LLM）的范例。另一种方法是使用编码器-解码器架构，通过交叉关注来整合语音特征。然而，这种方法在文献中受到的关注较少。在这项工作中，我们将 Whisper 编码器与 ChatGLM3 相结合，并使用中文自动语音识别（ASR）和名称实体识别（NER）任务对这两种方法进行了深入比较。我们不仅通过 F1 分数等传统指标，还通过新颖的 ASR-NER 错误细粒度分类法对这两种方法进行了评估。我们的实验表明，在短语境下，编码器-解码器架构优于纯解码器架构，而纯解码器架构则受益于长语境，因为它充分利用了 LLM 的所有层。与 Conformer 基线相比，通过使用 LLM，我们大大减少了实体遗漏错误，并提高了实体 ASR 的准确性。此外，通过使用思维链（CoT）NER，我们在 AISHELL-NER 测试集上获得了 0.805 的最先进（SOTA）F1 分数。