AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.05.20-2024.05.25

文章目录~

[1.STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making](#1.STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making)
[2. M 3 M^3 M3GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation](#2. M 3 M^3 M3GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation)
[3.MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time](#3.MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time)
[4.Evolutionary Large Language Model for Automated Feature Transformation](#4.Evolutionary Large Language Model for Automated Feature Transformation)
[5.Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection](#5.Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection)
[6.C3LLM: Conditional Multimodal Content Generation Using Large Language Models](#6.C3LLM: Conditional Multimodal Content Generation Using Large Language Models)
[7.COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models](#7.COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models)
[8.SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models](#8.SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models)
[9.Streaming Long Video Understanding with Large Language Models](#9.Streaming Long Video Understanding with Large Language Models)
[10.Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models](#10.Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models)
[11.Certifiably Robust RAG against Retrieval Corruption](#11.Certifiably Robust RAG against Retrieval Corruption)
[12.ChatGPT Code Detection: Techniques for Uncovering the Source of Code](#12.ChatGPT Code Detection: Techniques for Uncovering the Source of Code)
[13.Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search](#13.Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search)
[14.Are Long-LLMs A Necessity For Long-Context Tasks?](#14.Are Long-LLMs A Necessity For Long-Context Tasks?)
[15.Before Generation, Align it! A Novel and Effective Strategy for Mitigating Hallucinations in Text-to-SQL Generation](#15.Before Generation, Align it! A Novel and Effective Strategy for Mitigating Hallucinations in Text-to-SQL Generation)
[16. i i iREPO: i i implicit Reward Pairwise Difference based Empirical Preference Optimization](#16. i i iREPO: i i implicit Reward Pairwise Difference based Empirical Preference Optimization)
[17.Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs](#17.Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs)
[18.Cross-Task Defense: Instruction-Tuning LLMs for Content Safety](#18.Cross-Task Defense: Instruction-Tuning LLMs for Content Safety)
[19.A Solution-based LLM API-using Methodology for Academic Information Seeking](#19.A Solution-based LLM API-using Methodology for Academic Information Seeking)
[20.Eliciting Informative Text Evaluations with Large Language Models](#20.Eliciting Informative Text Evaluations with Large Language Models)
[21.Extracting Prompts by Inverting LLM Outputs](#21.Extracting Prompts by Inverting LLM Outputs)
[22.PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression](#22.PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression)
[23.SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models](#23.SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models)
[24.Multi-turn Reinforcement Learning from Preference Human Feedback](#24.Multi-turn Reinforcement Learning from Preference Human Feedback)
[25.Base of RoPE Bounds Context Length](#25.Base of RoPE Bounds Context Length)
[26.Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study](#26.Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study)
[27.RaFe: Ranking Feedback Improves Query Rewriting for RAG](#27.RaFe: Ranking Feedback Improves Query Rewriting for RAG)
[28.Large Language Models for Explainable Decisions in Dynamic Digital Twins](#28.Large Language Models for Explainable Decisions in Dynamic Digital Twins)
[29.MiniCache: KV Cache Compression in Depth Dimension for Large Language Models](#29.MiniCache: KV Cache Compression in Depth Dimension for Large Language Models)
[30.JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models](#30.JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models)
[31.Super Tiny Language Models](#31.Super Tiny Language Models)
[32.Large Language Models Can Self-Correct with Minimal Effort](#32.Large Language Models Can Self-Correct with Minimal Effort)
[33.TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment](#33.TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment)
[34.Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning](#34.Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning)
[35.Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction](#35.Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction)
[36.Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting](#36.Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting)
[37.ReALLM: A general framework for LLM compression and fine-tuning](#37.ReALLM: A general framework for LLM compression and fine-tuning)
[38.Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents](#38.Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents)
[39.Large Language Models Meet NLP: A Survey](#39.Large Language Models Meet NLP: A Survey)
[40.SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling](#40.SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling)
[41.Retrieval-Augmented Language Model for Extreme Multi-Label Knowledge Graph Link Prediction](#41.Retrieval-Augmented Language Model for Extreme Multi-Label Knowledge Graph Link Prediction)
[42.Exploration of Masked and Causal Language Modelling for Text Generation](#42.Exploration of Masked and Causal Language Modelling for Text Generation)
[43.Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression](#43.Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression)
[44.Question-Based Retrieval using Atomic Units for Enterprise RAG](#44.Question-Based Retrieval using Atomic Units for Enterprise RAG)
[45.CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models](#45.CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models)
[46.Eliciting Problem Specifications via Large Language Models](#46.Eliciting Problem Specifications via Large Language Models)
[47.MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning](#47.MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning)
[48.KG-RAG: Bridging the Gap Between Knowledge and Creativity](#48.KG-RAG: Bridging the Gap Between Knowledge and Creativity)
[49.A review on the use of large language models as virtual tutors](#49.A review on the use of large language models as virtual tutors)
[50.Unveiling and Manipulating Prompt Influence in Large Language Models](#50.Unveiling and Manipulating Prompt Influence in Large Language Models)
[51.(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts](#51.(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts)
[52.Large Language Models for Medicine: A Survey](#52.Large Language Models for Medicine: A Survey)
[53.OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework](#53.OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework)

1.STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making

标题:STRIDE：用于战略和互动决策的工具辅助 LLM 代理框架
author:Chuanhao Li, Runhan Yang, Tiankai Li, Milad Bafarassat, Kourosh Sharifi, Dirk Bergemann, Zhuoran Yang
publish:39 pages, 4 figures
date Time:2024-05-25

paper pdf:http://arxiv.org/pdf/2405.16376v1

摘要：

像 GPT-4 这样的大型语言模型（LLM）已经彻底改变了自然语言处理，显示出卓越的语言能力和推理能力。然而，它们在多机器人战略决策环境中的应用却受到严重的限制，包括数学推理能力差、难以遵循指令以及容易生成错误信息。这些缺陷阻碍了它们在战略和交互任务中的表现，因为这些任务要求遵守微妙的游戏规则、进行长期规划、在未知环境中探索以及预测对手的行动。为了克服这些障碍，本文提出了一个新颖的 LLM 代理框架，该框架配备了记忆和专门工具，可增强代理的战略决策能力。我们在一些重要的经济环境中部署了这些工具，特别是双边谈判、多代理和动态机制设计。我们采用量化指标来评估该框架在各种战略决策问题中的表现。我们的研究结果表明，我们的增强型框架大大提高了 LLM 的战略决策能力。虽然我们强调了当前 LLM 模型的固有局限性，但我们展示了通过有针对性的改进所取得的进步，这为互动环境中 LLM 应用的未来发展指明了方向。

2. M 3 M^3 M3GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation

标题: M 3 M^3 M3GPT：先进的多模态、多任务运动理解与生成框架
author:Mingshuang Luo, Ruibing Hou, Hong Chang, Zimo Liu, Yaowei Wang, Shiguang Shan
publish:18 pages, 6 figures
date Time:2024-05-25

paper pdf:http://arxiv.org/pdf/2405.16273v1

摘要：

本文介绍了 M 3 M^3 M3GPT，这是一种先进的用于文本理解和生成的多模态、多任务框架。 M 3 M^3 M3GPT 基于三个基本原则运行。第一个原则是为各种运动相关模态创建统一的表示空间。我们对文本、音乐和动作/舞蹈等多模态控制和生成信号采用离散矢量量化，从而实现了与具有单一词汇的大型语言模型（LLM）的无缝集成。第二种方法是直接在原始运动空间中建模生成模型。这一策略避免了离散标记符带来的信息损失，使模型生成更加详细和全面。第三， M 3 M^3 M3GPT 学习对各种运动相关任务之间的联系和协同作用进行建模。文本是 LLMs 最熟悉和最了解的模式，它被用作在不同运动任务之间建立联系的桥梁，从而促进相互强化。据我们所知， M 3 M^3 M3GPT 是第一个能够理解和生成基于多种信号的运动的模型。广泛的实验凸显了 M 3 M^3 M3GPT 在各种运动相关任务中的卓越表现，以及它在极具挑战性的任务中强大的零点泛化能力。

3.MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time

标题:MindStar：在推理时增强预训练 LLM 的数学推理能力
author:Jikun Kang, Xin Zhe Li, Xi Chen, Amirreza Kazemi, Boxing Chen
date Time:2024-05-25

paper pdf:http://arxiv.org/pdf/2405.16265v1

摘要：

尽管大型语言模型（LLMs）在各种任务中都取得了不俗的表现，但在复杂的推理任务中，例如在回答数学问题时，它们往往会陷入困境。最近为解决这一问题所做的努力主要集中在通过监督微调或自我改进技术来利用数学数据集。然而，这些方法往往依赖于难以准备的高质量数据集，或者需要大量计算资源进行微调。有研究发现，LLM 知道如何得出正确答案，但却难以选择正确的推理路径，受此启发，我们提出了一种纯粹基于推理的搜索方法，称为 MindStar (M*)，它将推理任务视为搜索问题。这种方法利用逐步推理的方式来浏览树空间。为了提高搜索效率，我们提出了两种树形搜索思路，以确定最佳推理路径。我们在 GSM8K 和 MATH 数据集上对 M* 框架进行了评估，并将其性能与现有的开放和闭源 LLM 进行了比较。我们的结果表明，M*大大增强了Llama-2-13B和Mistral-7B等开源模型的推理能力，并实现了与GPT-3.5和Grok-1相当的性能，但模型规模和计算成本却大幅降低。

4.Evolutionary Large Language Model for Automated Feature Transformation

标题:用于自动特征转换的进化大型语言模型
author:Nanxu Gong, Chandan K. Reddy, Wangyang Ying, Yanjie Fu
date Time:2024-05-25

paper pdf:http://arxiv.org/pdf/2405.16203v1

摘要：

特征转换旨在重构原始特征的特征空间，以提高下游模型的性能。然而，特征和操作组合的指数级增长带来了挑战，使得现有方法难以有效探索广阔的空间。此外，这些方法的优化仅仅受特定领域下游模型准确性的驱动，而忽略了对一般特征知识的获取。为了填补这一研究空白，我们提出了一种用于自动特征转换的进化 LLM 框架。该框架由两部分组成：1）通过 RL 数据收集器构建一个多种群数据库，同时利用进化算法策略进行数据库维护；2）利用大语言模型（LLM）在序列理解方面的能力，我们采用少量提示来引导 LLM 根据特征转换序列区分生成优质样本。利用多种群数据库，最初可以为发现优秀种群提供广泛的搜索范围。通过筛选和进化，优质种群将获得更多机会，从而进一步追求最优个体。通过将 LLM 与进化算法相结合，我们实现了在广阔空间内的高效探索，同时利用特征知识推动优化，从而实现了更具适应性的搜索范式。最后，我们通过实证证明了我们提出的方法的有效性和通用性。

5.Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection

标题:通过稀疏上下文选择加速检索增强生成推理
author:Yun Zhu, Jia-Chen Gu, Caitlin Sikora, Ho Ko, Yinxiao Liu, Chu-Cheng Lin, Lei Shu, Liangchen Luo, Lei Meng, Bang Liu, Jindong Chen
date Time:2024-05-25

paper pdf:http://arxiv.org/pdf/2405.16178v1

摘要：

大语言模型（LLMs）增强了检索功能，通过结合外部语境，表现出强大的性能和广泛的通用性。然而，输入长度与检索文档数量呈线性增长，导致延迟急剧增加。在本文中，我们提出了一种名为 "稀疏 RAG "的新范式，旨在通过稀疏性降低计算成本。具体来说，稀疏 RAG 对检索文档进行并行编码，从而消除了检索文档的长距离关注所带来的延迟。然后，LLM 选择性地解码输出，只关注高度相关的自动递归缓存，这些缓存是通过用特殊的控制标记提示 LLM 来选择的。值得注意的是，稀疏 RAG 将对每个文档的评估和生成响应合并为一个过程。在 RAG 系统中设计的稀疏机制有助于减少解码过程中加载的文档数量，从而加快 RAG 系统的推理速度。此外，过滤掉不需要的上下文还能增强模型对相关上下文的关注，从本质上提高生成质量。两个数据集的评估结果表明，稀疏 RAG 可以在生成质量和计算效率之间达到最佳平衡，证明了它在长短格式生成任务中的通用性。

6.C3LLM: Conditional Multimodal Content Generation Using Large Language Models

标题:C3LLM：使用大型语言模型生成条件多模态内容
author:Zixuan Wang, Qinkai Duan, Yu-Wing Tai, Chi-Keung Tang
date Time:2024-05-25

paper pdf:http://arxiv.org/pdf/2405.16136v1

摘要：

我们介绍了 C3LLM（Conditioned-on-Three-Modalities Large Language Models，有条件的三模态大语言模型），这是一个将视频到音频、音频到文本、文本到音频三个任务结合在一起的新颖框架。C3LLM 采用大型语言模型（LLM）结构作为桥梁，用于调整不同模态、合成给定的条件信息，并以离散的方式生成多模态信息。我们的贡献如下。首先，我们利用预先训练好的音频编码本为音频生成任务调整了分层结构。具体来说，我们训练 LLM 从给定条件中生成音频语义标记，并进一步使用非自回归变换器分层生成不同层次的声音标记，以更好地提高生成音频的保真度。其次，基于 LLM 最初是为离散任务设计的下一单词预测方法这一直觉，我们使用离散表示法生成音频，并将其语义压缩为声学标记，类似于在 LLM 中添加 "声学词汇"。第三，我们的方法将之前的音频理解、视频到音频生成和文本到音频生成任务结合到一个统一的模型中，以端到端的方式提供了更多的通用性。通过各种自动评估指标，我们的 C3LLM 取得了更好的结果，与之前的方法相比提供了更好的语义一致性。

7.COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models

标题:COLT：为大型语言模型实现面向完整性的工具检索
author:Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen
date Time:2024-05-25

paper pdf:http://arxiv.org/pdf/2405.16089v1

摘要：

最近，外部工具与大型语言模型（LLMs）的整合已成为一种很有前途的方法，可以克服预训练数据的固有限制。然而，由于输入长度和响应时间的限制，现实世界的应用往往涉及多种工具，因此将所有工具直接整合到 LLM 中是不可行的。因此，要充分挖掘工具增强 LLM 的潜力，开发有效的工具检索系统至关重要。现有的工具检索方法技术主要依赖于用户查询和工具描述之间的语义匹配，这往往会导致选择多余的工具。因此，这些方法无法提供一套完整的多样化工具，而这些工具是解决 LLM 所遇到的多方面问题所必需的。在本文中，我们提出了一种基于协作学习的工具检索方法（COLT），它不仅能捕捉用户查询和工具描述之间的语义相似性，还能考虑到工具的协作信息。具体来说，我们首先对基于 PLM 的检索模型进行微调，以便在语义学习阶段捕捉查询和工具之间的语义关系。随后，我们在查询、场景和工具之间构建了三个双向图，并引入了双视图协作学习框架，以便在协作学习阶段捕捉工具之间错综复杂的协作关系。在开放基准和新引入的 ToolLens 数据集上进行的广泛实验表明，COLT 实现了卓越的性能。值得注意的是，采用我们提出的模型框架的 BERT-mini（11M）的性能优于参数多 30 倍的 BERT-large（340M）。此外，我们计划公开发布 ToolLens 数据集，以支持工具检索领域的进一步研究。

8.SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models

标题:SPP：大型语言模型的稀疏性保留参数高效微调
author:Xudong Lu, Aojun Zhou, Yuhui Xu, Renrui Zhang, Peng Gao, Hongsheng Li
date Time:2024-05-25

paper pdf:http://arxiv.org/pdf/2405.16057v1

摘要：

大型语言模型（LLM）已成为推动人工智能领域发展的关键，但其巨大的规模给微调和部署带来了巨大挑战。目前的训练后剪枝方法虽然缩小了 LLM 的规模，但往往无法保持其原有性能。为了应对这些挑战，本文介绍了一种具有稀疏性保留参数效率的微调方法 SPP。与现有的难以保持性能的训练后剪枝方法不同，SPP 建议采用轻量级可学习列矩阵和行矩阵来优化稀疏 LLM 权重，从而保持剪枝后预训练模型的结构和稀疏性不变。通过元素乘法和残差加法，SPP 确保了模型稀疏性模式和比率在训练和权重合并过程中的一致性。我们将 SPP 应用于 LLaMA 和 LLaMA-2 模型族，并采用最新的训练后剪枝方法，证明了 SPP 的有效性。我们的研究结果表明，SPP 能显著提高具有不同稀疏性模式（即非结构化和 N:M 稀疏性）的模型的性能，特别是对于那些具有高稀疏性比率（如 75%）的模型，使其成为有效微调稀疏 LLM 的一种有前途的解决方案。代码将公布在 https://github.com/Lucky-Lance/SPP 网站上。

9.Streaming Long Video Understanding with Large Language Models

标题:利用大型语言模型理解流式长视频
author:Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Shuangrui Ding, Dahua Lin, Jiaqi Wang
date Time:2024-05-25

paper pdf:http://arxiv.org/pdf/2405.16009v1

摘要：

本文介绍了用于视频理解的高级视觉语言大型模型（VLLM）VideoStreaming，它能够理解任意长度的视频，并对视频标记进行流式编码和自适应选择。在视觉语言领域，视频理解的挑战主要在于从长视频中提取大量标记所带来的巨大计算负担。以往的研究依靠稀疏采样或帧压缩来减少标记。然而，这些方法要么忽略了长时间跨度中的时间信息，要么牺牲了空间细节，导致压缩效果不佳。为了解决这些局限性，我们的 VideoStreaming 有两个核心设计：内存传播流编码（Memory-Propagated Streaming Encoding）和自适应内存选择（Adaptive Memory Selection）。内存传播流编码架构将长视频分割成短片段，并依次用传播内存对每个片段进行编码。在每次迭代中，我们利用前一个片段的编码结果作为历史记忆，并将其与当前片段进行整合，从而提炼出一个浓缩的表示法，将截至当前时间戳的视频内容封装起来。编码过程结束后，自适应记忆选择策略会从所有历史记忆中选择一定数量的与问题相关的记忆，并将其输入 LLM 以生成信息回复。与问题相关的选择可减少记忆中的冗余，从而实现高效、精确的视频理解。同时，分离式视频提取和推理设计允许 LLM 通过直接选择相应的记忆来回答有关视频的不同问题，而无需为每个问题对整个视频进行编码。我们的模型在长视频基准测试中取得了优异的性能和更高的效率，展示了用于详细问题解答的精确时序理解能力。

10.Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

标题:提示感知适配器：为多模态大语言模型学习自适应视觉标记
author:Yue Zhang, Hehe Fan, Yi Yang
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15684v1

摘要：

为了缩小视觉和语言模式之间的差距，多模态大语言模型（MLLM）通常会学习一种适配器，将视觉输入转换为大语言模型（LLM）可理解的标记。然而，大多数适配器生成的视觉标记都是一致的，与提示中提到的特定兴趣对象无关。由于这些适配器对图像中的每一个细节都给予同等关注，并专注于整个场景，因此可能会增加 LLM 的认知负荷，尤其是在处理复杂场景时。为了缓解这一问题，我们提出了提示感知适配器。这些适配器能够根据提示的具体重点动态嵌入视觉输入。具体来说，提示感知适配器利用全局和局部文本特征，从粗粒度和细粒度的提示中捕捉最相关的视觉线索。这种方法大大提高了 LLM 理解和解释视觉内容的能力。各种视觉问题解答任务（如计数和位置推理）的实验证明了提示感知适配器的有效性。

11.Certifiably Robust RAG against Retrieval Corruption

标题:可认证的稳健 RAG，防止检索破坏
author:Chong Xiang, Tong Wu, Zexuan Zhong, David Wagner, Danqi Chen, Prateek Mittal
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15556v1

摘要：

检索增强生成（RAG）已被证明容易受到检索破坏攻击：攻击者可以在检索结果中注入恶意段落，从而诱发不准确的响应。在本文中，我们提出了 RobustRAG 作为首个针对检索破坏攻击的防御框架。RobustRAG 的关键之处在于隔离--然后--聚合策略：我们从每个段落中孤立地获取 LLM 响应，然后安全地聚合这些孤立的响应。为了实现 RobustRAG，我们设计了基于关键字和解码的算法，用于安全地聚合非结构化文本响应。值得注意的是，RobustRAG 可以实现可认证的鲁棒性：我们可以正式证明并认证，对于某些查询，RobustRAG 始终可以返回准确的响应，即使攻击者完全了解我们的防御，并可以任意注入少量恶意段落。我们在开放域质量保证和长文本生成数据集上对 RobustRAG 进行了评估，并证明了它在各种任务和数据集上的有效性和通用性。

12.ChatGPT Code Detection: Techniques for Uncovering the Source of Code

标题:ChatGPT 代码检测：揭示代码源的技术
author:Marc Oedingen, Raphael C. Engelhardt, Robin Denz, Maximilian Hammer, Wolfgang Konen
publish:Submitted to AI journal of MDPI
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15512v1

摘要：

近来，大型语言模型（LLM）在生成计算机代码方面取得了长足进步，模糊了人类创建的代码与人工智能（AI）生成的代码之间的界限。随着这些技术的快速发展，探索它们如何影响代码生成至关重要，特别是考虑到在高等教育等领域滥用的风险。本文通过使用先进的分类技术来区分人类编写的代码和由 ChatGPT（一种 LLM）生成的代码，从而探讨了这一问题。我们采用了一种新方法，将强大的嵌入特征（黑盒）与监督学习算法（包括深度神经网络、随机森林和极端梯度提升）相结合，实现了这种区分，准确率高达 98%，令人印象深刻。对于成功的组合，我们还检查了它们的模型校准，结果表明其中一些模型的校准效果非常好。此外，我们还提出了白盒特征和可解释贝叶斯分类器，以阐明代码源之间的关键差异，从而提高我们方法的可解释性和透明度。这两种方法效果都很好，但准确率最多只有 85-88%。我们还表明，未经训练的人类解决相同任务的效果并不比随机猜测好。这项研究对于理解和降低在代码生成中使用人工智能的潜在风险至关重要，尤其是在高等教育、软件开发和竞技编程方面。

13.Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search

标题:用蒙特卡洛树搜索引导的大型语言模型生成代码世界模型
author:Nicola Dainese, Matteo Merler, Minttu Alakuijala, Pekka Marttinen
publish:10 pages in main text, 24 pages including references and

supplementary materials. 2 figures and 3 tables in the main text, 9 figures

and 12 tables when including the supplementary materials
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15383v1

摘要：

在这项工作中，我们考虑了代码世界模型（Code World Models），即大型语言模型（LLM）以 Python 代码形式生成的世界模型，用于基于模型的强化学习（RL）。调用代码而非 LLM 进行规划具有精确、可靠、可解释和极其高效的优点。然而，编写合适的代码世界模型需要理解复杂指令的能力、生成具有非简单逻辑的精确代码的能力，以及通过单元测试和环境轨迹反馈对长程序进行自我调试的能力。为了应对这些挑战，我们提出了蒙特卡洛树搜索生成、改进和修复（GIF-MCTS）这一新的 LLM 代码生成策略。为了测试我们的方法，我们引入了代码世界模型基准（CWMB），这是一套程序合成和规划任务，由 18 种不同的 RL 环境以及相应的文本描述和策划轨迹组成。在 CWMB 和其他两个基准测试中，GIF-MCTS 超越了所有基准测试，我们还证明了用它合成的代码世界模型可以成功地用于规划，从而使基于模型的 RL 代理的采样效率和推理速度大大提高。

14.Are Long-LLMs A Necessity For Long-Context Tasks?

标题:长 LLM 是长语境任务的必要条件吗？
author:Hongjin Qian, Zheng Liu, Peitian Zhang, Kelong Mao, Yujia Zhou, Xu Chen, Zhicheng Dou
publish:18 pages
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15318v1

摘要：

尽管最近取得了一些进展，但长 LLM 的学习和部署仍然是一个具有挑战性的问题。在这项工作中，我们认为长LLMs并不是解决长上下文任务的必要条件，因为常见的长上下文任务都是短上下文可解的，即它们可以通过纯粹处理长上下文任务输入中的甲骨文短上下文来解决。在此基础上，我们提出了一个名为 LC-Boost（Long-Context Bootstrapper）的框架，它能让短 LLM 以引导方式解决长语境任务。在我们的框架中，短 LLM 会提示自己对两个关键决策进行推理：1）如何访问输入内容中适当的上下文部分；2）如何有效利用所访问的上下文。通过根据提出的任务自适应地访问和利用上下文，LC-Boost 可以作为一个通用框架来处理多样化的长上下文处理问题。我们从流行的长语境基准中对不同类型的任务进行了全面评估，结果发现 LC-Boost 能够以更少的资源消耗大幅提高性能。

15.Before Generation, Align it! A Novel and Effective Strategy for Mitigating Hallucinations in Text-to-SQL Generation

标题:生成前，先对齐！在文本到 SQL 生成过程中减少幻觉的有效新策略
author:Ge Qu, Jinyang Li, Bowen Li, Bowen Qin, Nan Huo, Chenhao Ma, Reynold Cheng
publish:Accepted to ACL Findings 2024
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15307v1

摘要：

由上下文学习（ICL）驱动的大型语言模型（LLM）大大提高了文本到 SQL 的性能。以前的方法一般采用两阶段推理框架，即 1）模式链接和 2）逻辑综合，使框架不仅有效，而且可解释。尽管取得了这些进步，但由于 LLMs 的概括性本身就很差，经常会产生幻觉，从而限制了 LLMs 潜力的充分发挥。在这项工作中，我们首先确定了文本到 SQL 各阶段常见的幻觉类型，并对其进行了分类。然后，我们引入了一种新颖的策略--任务对齐（TA），旨在减轻每个阶段的幻觉。TA 鼓励 LLM 利用类似任务的经验，而不是从头开始任务。这可以帮助 LLM 减轻泛化的负担，从而有效减轻幻觉。我们进一步提出了基于这一策略的文本到 SQL 框架 TA-SQL。实验结果和综合分析证明了我们框架的有效性和稳健性。具体来说，在 BIRD dev 上，它将 GPT-4 基准的性能相对提高了 21.23%，并在六个模型和四个主流复杂文本到 SQL 基准上取得了显著的改进。

16. i i iREPO: i i implicit Reward Pairwise Difference based Empirical Preference Optimization

标题: i i iREPO：基于经验偏好优化的 i i i隐性奖赏配对差分法
author:Long Tan Le, Han Shu, Tung-Anh Nguyen, Choong Seon Hong, Nguyen H. Tran
publish:Under Review
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15230v1

摘要：

大型语言模型（LLM）虽然能力惊人，但有时也会产生偏离人类期望的输出结果。出现这种偏差时，就需要进行对齐阶段，以防止传播不真实、有毒或有偏见的信息。传统的基于强化学习的配准方法往往难以应对已发现的不稳定性，而偏好优化方法则受限于对预先收集的硬标签数据集的过度拟合。在本文中，我们提出了一种名为" i i iREPO "的新型 LLM 对齐框架，它利用隐式奖励成对差异回归进行经验偏好优化。特别是， i i iREPO 利用根据人类（或人工智能注释者）经验偏好标记的自生成数据集，通过基于回归的新型损失函数迭代完善对齐策略。此外，我们还引入了一种创新算法，该算法有理论保证，可在理想假设条件下实现最优结果，并在没有此类假设条件的情况下提供实用的性能差距结果。使用 Phi-2 和 Mistral-7B 的实验结果表明， i i iREPO 能有效地利用软标签、自我生成的响应和经验人工智能注释者的对数实现自我对齐。此外，在使用语言模型评估工具包（Language Model Evaluation Harness）和多转向基准（Multi-turn benchmarks）进行的评估中，我们的方法超过了偏好优化基准。

17.Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs

标题:以思维的速度解码：利用词性单元的并行解码实现 LLM
author:Chenxi Sun, Hongzhi Zhang, Zijia Lin, Jingyuan Zhang, Fuzheng Zhang, Zhongyuan Wang, Bin Chen, Chengru Song, Di Zhang, Kun Gai, Deyi Xiong
publish:Accepted for publication at LREC-COLING 2024
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15208v1

摘要：

大型语言模型在自然语言理解和生成方面表现出了卓越的能力。然而，它们的生成速度受限于其解码过程固有的顺序性，给实时应用带来了挑战。本文介绍了词法单元解码（LUD），这是一种以数据驱动方式实现的新型解码方法，可在不牺牲输出质量的情况下加快解码过程。我们方法的核心是观察到预先训练好的语言模型可以有把握地预测多个连续的词块，从而形成一个文本单元（textit{lexical unit}），这些连续的词块可以并行解码。广泛的实验验证了我们的方法在保持生成质量的同时大幅缩短了解码时间，即自然语言生成速度提高了 33%，而质量没有下降；代码生成速度提高了 30%，而质量下降了 3%，可以忽略不计。与众不同的是，LUD 不需要辅助模型，也不需要改变现有架构。它还可以与其他解码加速方法集成，从而实现更明显的推理效率提升。我们认为，LUD 的基本原理可以为未来的语言模型定义一种新的解码范式，从而提高它们在更广泛应用中的适用性。所有代码均可在 https://github.com/tjunlp-lab/Lexical-Unit-Decoding-LUD- 公开获取。关键词并行解码、词性单元解码、大型语言模型

18.Cross-Task Defense: Instruction-Tuning LLMs for Content Safety

标题:跨任务防御：对 LLM 进行教学调整以确保内容安全
author:Yu Fu, Wen Xiao, Jia Chen, Jiachen Li, Evangelos Papalexakis, Aichi Chien, Yue Dong
publish:accepted to NAACL2024 TrustNLP workshop
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15202v1

摘要：

最近的研究表明，大型语言模型（LLM）在平衡安全性与实用性方面面临挑战，尤其是在处理摘要和翻译等 NLP 任务的长文本时。尽管有针对恶意短问题的防御措施，但大型语言模型安全处理危险长篇内容（如教授非法活动的手册）的能力仍不明确。我们的工作旨在为 LLM 开发强大的防御功能，以处理恶意文档和良性 NLP 任务查询。我们引入了一个由安全相关示例组成的防御数据集，并提出了用于指令调整的单一任务和混合任务损失。我们的实证结果表明，通过适当的指令调整，LLM 可以显著提高其安全管理危险内容的能力。此外，加强最易被误用的任务的防御能力，也能有效保护 LLM 处理有害信息。我们还观察到，在防御策略中存在实用性和安全性之间的权衡，与 Llama1 相比，采用我们提出的方法的 Llama2 在这两者之间表现出更好的平衡。

19.A Solution-based LLM API-using Methodology for Academic Information Seeking

标题:基于解决方案的 LLM API 学术信息查询方法
author:Yuanchun Wang, Jifan Yu, Zijun Yao, Jing Zhang, Yuyang Xie, Shangqing Tu, Yiyang Fu, Youhe Feng, Jinkai Zhang, Jingyao Zhang, Bowen Huang, Yuanyao Li, Huihui Yuan, Lei Hou, Juanzi Li, Jie Tang
publish:22 pages, 13 figures
date Time:2024-05-24

paper pdf:http://arxiv.org/pdf/2405.15165v1

摘要：

将大型语言模型（LLM）应用于学术应用程序接口（API）的使用，有望减少研究人员的学术信息搜索工作量。然而，目前的 LLM API 使用方法难以应对学术查询中常见的复杂 API 耦合。为了解决这个问题，我们引入了 SoAy，一种基于解决方案的学术信息搜索 LLM API 使用方法。它使用带有解决方案的代码作为推理方法，其中解决方案是预先构建的 API 调用序列。解决方案的加入降低了模型理解 API 之间复杂关系的难度。代码提高了推理效率。为了评估 SoAy，我们引入了 SoAyBench，这是一个评估基准，与 SoAyEval 配套，建立在 AMiner 的 API 克隆环境之上。实验结果表明，与最先进的基于 LLM API 的基准相比，SoAy 的性能提高了 34.58-75.99%。所有数据集、代码、调整后的模型和部署的在线服务均可在 https://github.com/RUCKBReasoning/SoAy 上公开访问。

20.Eliciting Informative Text Evaluations with Large Language Models

标题:利用大型语言模型进行信息文本评估
author:Yuxuan Lu, Shengwei Xu, Yichi Zhang, Yuqing Kong, Grant Schoenebeck
publish:Accepted by the Twenty-Fifth ACM Conference on Economics and

Computation (EC'24)
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.15077v1

摘要：

同行预测机制激励着高质量的反馈，并具有可证明的保证。然而，目前的方法只适用于比较简单的报告，如多项选择或标量数字。我们的目标是利用大型语言模型的最新发展，将这些技术扩展到基于文本的报告这一更大的领域。这大大提高了同行预测机制的适用性，因为文本反馈是各种反馈渠道的常态：同行评价、电子商务客户评价和社交媒体上的评论。我们介绍了两种机制，即生成式同行预测机制（GPPM）和生成式提要同行预测机制（GSPPM）。这些机制利用 LLM 作为预测器，从一个代理的报告映射到对其同行报告的预测。从理论上讲，我们证明了当 LLM 预测足够准确时，我们的机制可以激励人们付出更多努力，并以贝叶斯纳什均衡（近似）的方式讲真话。在经验方面，我们通过在两个真实数据集（Yelp 评论数据集和 ICLR OpenReview 数据集）上进行的实验证实了我们机制的有效性。我们强调的结果是，在 ICLR 数据集上，我们的机制可以在预期分数方面区分三个质量等级--人工撰写的评论、GPT-4 生成的评论和 GPT-3.5 生成的评论。此外，GSPPM 比 GPPM 更有效地惩罚了 LLM 生成的评论。

21.Extracting Prompts by Inverting LLM Outputs

标题:通过反转 LLM 输出提取提示信息
author:Collin Zhang, John X. Morris, Vitaly Shmatikov
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.15012v1

摘要：

我们考虑的是语言模型反转问题：给定语言模型的输出，我们试图提取产生这些输出的提示。我们开发了一种新的黑盒方法--output2prompt，它可以在不访问模型日志、不进行对抗或越狱查询的情况下学习提取提示。与之前的工作不同，output2prompt 只需要正常用户查询的输出。为了提高内存效率，output2prompt 采用了一种新的稀疏编码技术。我们对 output2prompt 在各种用户和系统提示上的功效进行了测量，并证明了它在不同 LLM 之间的零点转移能力。

22.PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression

标题:PV-Tuning：超越直通式估计，实现极限 LLM 压缩
author:Vladimir Malinovskii, Denis Mazur, Ivan Ilin, Denis Kuznedelev, Konstantin Burlachenko, Kai Yi, Dan Alistarh, Peter Richtarik
publish:Preprint
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14852v1

摘要：

人们对大型语言模型（LLM）的 "极限 "压缩（即每个参数压缩到 1-2 比特）产生了浓厚的兴趣，这使得此类模型可以在资源受限的设备上高效执行。现有的工作主要集中在改进的单次量化技术和权重表示上；然而，纯粹的后训练方法在准确性与比特宽度的权衡中收益越来越低。最先进的量化方法（如 QuIP# 和 AQLM）包括通过有限的校准数据对压缩参数（部分）进行微调；然而，这种对压缩权重的微调技术通常只使用直通估计器（STE），而直通估计器在这种情况下的性能还没有得到很好的理解。在这项工作中，我们对使用直通估计器进行极端 LLM 压缩的做法提出了质疑，证明它可能是次优的，并对 LLM 的量化感知微调策略进行了系统研究。我们提出了 PV-Tuning--一种与表示无关的框架，它概括并改进了现有的微调策略，并在受限情况下提供收敛保证。在实际应用中，当用于 1-2 位矢量量化时，对于 Llama 和 Mistral 等高性能模型，PV-Tuning 优于先前的技术。利用 PV-Tuning 技术，我们首次实现了 Llama 2 系列模型每个参数 2 比特的帕累托最优量化。

23.SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models

标题:SliM-LLM：针对大型语言模型的显著性驱动混合精度量化技术
author:Wei Huang, Haotong Qin, Yangdong Liu, Yawei Li, Xianglong Liu, Luca Benini, Michele Magno, Xiaojuan Qi
publish:22 pages
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14917v1

摘要：

大型语言模型（LLM）在自然语言理解方面性能卓越，但需要大量的计算和内存资源。训练后量化（PTQ）是一种强大的压缩技术，在 LLM 中得到了广泛研究。然而，现有的 PTQ 方法在精度和效率方面仍不理想，尤其是在低于 4 位宽的情况下。使用分组量化的标准 PTQ 方法很难将 LLM 精确量化到如此低的比特，而先进的方法在保持高精度权重的同时也很难实现其理论上的硬件效率。本文提出了一种针对 LLM 的显著性驱动混合精度量化方案，即 SliM-LLM。该方案利用权重的显著性分布来确定最佳位宽和量化器，以实现精确的 LLM 量化，同时将位宽分区与分组保持一致，以实现紧凑的内存使用和快速的整数推理。具体来说，所提出的 SliM-LLM 主要依赖于两种新技术：（1）显著性决定位分配（Salience-Determined Bit Allocation）利用显著性分布的聚类特征来分配各组的位宽，从而提高了量化 LLM 的精度并保持了推理效率；（2）显著性加权量化器校准（Salience-Weighted Quantizer Calibration）通过考虑组内元素的显著性来优化量化器参数，平衡了显著性信息的维护和误差的最小化。综合实验表明，SliM-LLM 显著提高了超低位 LLM 的精度，例如，在 NVIDIA A800 GPU 上，2 位 LLaMA-7B 比原始模型节省了 5.5 倍内存，与最先进的无梯度 PTQ 方法相比，迷惑性降低了 48%。此外，由基于梯度量化器的 SliM-LLM 扩展而来的 SliM-LLM+ 进一步将困惑度降低了 35.1%。

24.Multi-turn Reinforcement Learning from Preference Human Feedback

标题:从偏好人类反馈中进行多轮强化学习
author:Lior Shani, Aviv Rosenberg, Asaf Cassel, Oran Lang, Daniele Calandriello, Avital Zipori, Hila Noga, Orgad Keller, Bilal Piot, Idan Szpektor, Avinatan Hassidim, Yossi Matias, Rémi Munos
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14655v1

摘要：

从人类反馈中强化学习（RLHF）已成为将大型语言模型（LLM）与人类偏好相匹配的标准方法，使 LLM 在各种任务中展现出非凡的能力。现有的方法是在单个决策（转弯）层面上模拟偏好，这限制了它们在需要规划或多转弯互动以实现长期目标的环境中的能力。在本文中，我们针对这一问题，通过两个完整的多轮对话之间的偏好反馈，开发了强化学习（RL）的新方法。在表格设置中，我们针对基于偏好的一般多轮 RL 问题提出了一种新颖的基于镜像后裔的策略优化算法，并证明了其向纳什均衡的收敛性。为了评估性能，我们创建了一个新的环境--"教育对话"（Education Dialogue），在这个环境中，教师代理引导学生学习一个随机主题，结果表明我们算法的深度 RL 变体优于 RLHF 基线。最后，我们证明，在有明确奖励的环境中，我们的算法恢复了与基于奖励的 RL 基线相同的性能，尽管仅仅依赖于较弱的偏好信号。

25.Base of RoPE Bounds Context Length

标题:RoPE 边界基线上下文长度
author:Xin Men, Mingyu Xu, Bingning Wang, Qingyu Zhang, Hongyu Lin, Xianpei Han, Weipeng Chen
publish:17 pages
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14591v1

摘要：

位置嵌入是当前大型语言模型（LLM）的核心组成部分。旋转位置嵌入（RoPE）是一种用旋转矩阵对位置信息进行编码的技术，是许多 LLM（如 Llama 系列）中位置嵌入的实际选择。RoPE 被进一步用于扩展长上下文能力，其大致原理是通过调整 RoPE 的 \textit{base} 参数来缓解位置嵌入中的分布外（OOD）问题。然而，在本文中，我们发现基于 OOD 理论，LLM 可能会获得肤浅的长语境能力。我们重新审视了 RoPE 在 LLM 中的作用，并提出了一种新颖的长期衰减特性，我们得出了 \textit{RoPE的基值约束上下文长度}：要获得一定的上下文长度能力，基值存在一个绝对下限。我们的研究从理论和实证两方面揭示了上下文长度与 RoPE 基值之间的关系，这可能会对未来的长上下文训练有所启发。

26.Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study

标题:探索在系统综述中使用大语言模型提取数据：快速可行性研究
author:Lena Schmidt, Kaitlyn Hair, Sergio Graziozi, Fiona Campbell, Claudia Kapp, Alireza Khanteymoori, Dawn Craig, Mark Engelbert, James Thomas
publish:Conference proceedings, peer-reviewed and presented at the 3rd

Workshop on Augmented Intelligence for Technology-Assisted Reviews Systems,

Glasgow, 2024
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14445v1

摘要：

本文介绍了使用大型语言模型（LLM）GPT-4 进行系统综述数据提取（半）自动化的快速可行性研究。尽管近来人们对 LLM 的兴趣大增，但对于如何设计基于 LLM 的自动化工具以及如何稳健地评估其性能仍缺乏了解。在 2023 年证据合成黑客马拉松期间，我们进行了两项可行性研究。首先，从人类临床、动物和社会科学领域的研究中自动提取研究特征。我们在每个类别中使用了两项研究进行提示开发；使用了十项研究进行评估。其次，我们使用 LLM 预测 EBM-NLP 数据集中 100 篇摘要中标注的参与者、干预、对照和结果（PICOs）。总体而言，结果显示准确率约为 80%，不同领域之间存在一定差异（人类临床研究为 82%，动物研究为 80%，人类社会科学研究为 72%）。因果推理方法和研究设计是错误最多的数据提取项目。在 PICO 研究中，参与者和干预/对照显示出较高的准确率（>80%），而结果则更具挑战性。评估是人工完成的；BLEU 和 ROUGE 等评分方法的价值有限。我们观察到 LLMs 预测的变化和响应质量的变化。本文为未来在系统综述自动化数据提取方面对 LLMs 进行评估提供了一个模板。我们的结果表明，使用 LLMs（例如作为第二或第三审稿人）可能会有价值。不过，在将 GPT-4 等模型整合到工具中时，建议谨慎行事。对于 LLM 所处理的每种类型的数据，都有必要在实际环境中进一步研究其稳定性和可靠性。

27.RaFe: Ranking Feedback Improves Query Rewriting for RAG

标题:RaFe：排名反馈改进了 RAG 的查询重写
author:Shengyu Mao, Yong Jiang, Boli Chen, Xiao Li, Peng Wang, Xinyu Wang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang
publish:16 pages
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14431v1

摘要：

随着大型语言模型（LLM）和检索增强生成（RAG）技术的发展，查询重写已被广泛纳入 RAG 系统，用于开放域质量保证等下游任务。许多研究都试图利用具有强化学习功能的小型模型而不是昂贵的 LLM 来改进查询重写。然而，目前的方法需要注释（如标注的相关文档或下游答案）或预先设计的反馈奖励，缺乏通用性，也无法利用为查询改写量身定制的信号。在本文中，我们提出了我们的框架，这是一个无需注释即可训练查询重写模型的框架。通过利用公开可用的重写器，我们的系统能提供与重写目标相一致的反馈。实验结果表明，我们的方法可以获得比基线更好的性能。

28.Large Language Models for Explainable Decisions in Dynamic Digital Twins

标题:动态数字孪生中可解释决策的大型语言模型
author:Nan Zhang, Christian Vergara-Marcillo, Georgios Diamantopoulos, Jingran Shen, Nikos Tziritas, Rami Bahsoon, Georgios Theodoropoulos
publish:8 pages, 3 figures, under review
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14411v1

摘要：

动态数据驱动的数字孪生系统（DDTs）可实现知情决策，并为底层系统提供优化平台。通过利用动态数据驱动应用系统（DDDAS）的原理，DDTs 可以为反馈回路、模型更新和决策（包括自主决策）制定计算模式。然而，理解自主决策往往需要技术和特定领域的知识。本文探讨了如何利用大型语言模型（LLM）为 DDTs 提供可解释性平台，通过利用特定领域的知识库为系统的决策生成自然语言解释。本文介绍了一个来自智能农业的案例研究。

29.MiniCache: KV Cache Compression in Depth Dimension for Large Language Models

标题:MiniCache：大型语言模型深度维度的 KV 缓存压缩
author:Akide Liu, Jing Liu, Zizheng Pan, Yefei He, Gholamreza Haffari, Bohan Zhuang
publish:Tech report
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14366v1

摘要：

高效部署计算要求高的大型语言模型（LLM）的关键方法是键值（KV）缓存。KV 缓存存储了之前生成的标记的键值状态，大大减少了重复计算的需要，从而降低了自回归生成的延迟。然而，KV 缓存的大小与序列长度呈线性增长，这给需要长上下文输入和大量序列生成的应用带来了挑战。在本文中，我们提出了一种名为 MiniCache 的简单而有效的方法，从新颖的深度角度跨层压缩 KV 缓存，从而显著减少 LLM 推理的内存占用。我们的方法基于对 KV 缓存状态的观察，即在 LLM 的中深度部分，相邻层之间表现出高度的相似性。为了便于合并，我们建议将状态分解为幅度和方向两个部分，对状态向量的方向进行插值，同时保持其长度不变。此外，我们还引入了一种标记保留策略，以保持高度不同的状态对不被合并，从而以最小的额外存储开销保存信息。我们的 MiniCache 无需训练且具有通用性，是对量化和稀疏性等现有 KV 缓存压缩策略的补充。我们利用各种模型（包括 LLaMA-2、LLaMA-3、Phi-3、Mistral 和 Mixtral）在多个基准测试中对 MiniCache 进行了全面评估，证明了它在实现出色的压缩率和高吞吐量方面的卓越性能。在 ShareGPT 数据集上，采用 4 位 MiniCache 的 LLaMA-2-7B 实现了高达 5.02 倍的出色压缩率，推理吞吐量提高了约 5 倍，与 FP16 全缓存基线相比，内存占用减少了 41%，同时保持了近乎无损的性能。

30.JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

标题:九章3.0：通过训练小型数据合成模型有效提高数学推理能力
author:Kun Zhou, Beichen Zhang, Jiapeng Wang, Zhipeng Chen, Wayne Xin Zhao, Jing Sha, Zhichao Sheng, Shijin Wang, Ji-Rong Wen
publish:28 pages, SOTA math LLM using Well-trained Data Synthesis LLM
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14365v1

摘要：

数学推理是大型语言模型在实际应用中的一项重要能力。为了增强这一能力，现有的工作要么是收集大规模数学相关文本进行预训练，要么是依靠更强大的 LLM（（eg GPT-4）来合成大规模数学问题。这两类工作通常都会导致训练或合成的巨大成本。为了降低成本，我们提出了一种基于开源文本的高效方法，即训练一个小型 LLM 来合成数学问题，从而有效地生成足够的高质量预训练数据。为此，我们使用 GPT-4 创建了一个数据集，将其数据合成能力提炼到小型 LLM 中。具体来说，我们根据人类教育阶段精心设计了一套提示语，引导 GPT-4 归纳出涵盖不同数学知识和难度水平的问题。此外，我们还采用了基于梯度的影响估计方法来选择最有价值的数学相关文本。这两者都被输入到 GPT-4 中，用于创建知识提炼数据集，训练小型 LLM。我们利用它合成了 600 万个数学问题，用于预训练我们的九章 3.0 模型，该模型只需调用 GPT-4 API 9.3k 次，并在 4.6B 数据上进行预训练。实验结果表明，在自然语言推理和工具操作设置下，九章 3.0 在多个数学推理数据集上都取得了一流的性能。我们的代码和数据将在（url{https://github.com/RUCAIBox/JiuZhang3.0}）公开发布。

31.Super Tiny Language Models

标题:超小型语言模型
author:Dylan Hillier, Leon Guertler, Cheston Tan, Palaash Agrawal, Chen Ruirui, Bobby Cheng
publish:11 pages, 4 figures
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14159v1

摘要：

大型语言模型（LLM）的飞速发展极大地改善了自然语言处理能力，但也因其对计算和能源的高要求而带来了挑战。本文介绍了一系列以超级微小语言模型（STLMs）为重点的研究工作，旨在以显著减少的参数数量提供高性能。我们探索了一些创新技术，如具有池化机制的字节级标记化、权重绑定和高效训练策略。与传统模型相比，这些方法共同将参数数减少了 90% 到 95%，同时保持了极具竞争力的性能。本系列论文将探讨各种子问题，包括无标记化模型、基于自播放的训练和替代训练目标，目标模型的参数数分别为 1 千万、5 千万和 1 亿。我们的最终目标是使高性能语言模型在广泛的应用中更加容易获得和实用。

32.Large Language Models Can Self-Correct with Minimal Effort

标题:大型语言模型能以最小的代价进行自我修正
author:Zhenyu Wu, Qingkai Zeng, Zhihan Zhang, Zhaoxuan Tan, Chao Shen, Meng Jiang
publish:Work in Progress
date Time:2024-05-23

paper pdf:http://arxiv.org/pdf/2405.14092v1

摘要：

内在自我纠正是一种指导大型语言模型（LLMs）在没有外部反馈的情况下验证和纠正其反应的方法。遗憾的是，研究得出的结论是，大型语言模型还不能自我纠正推理。我们发现，一种简单而有效的验证方法可以释放 LLMs 的内在能力。这就是在问题中屏蔽一个关键条件，添加当前的回答来构建一个验证问题，并预测条件以验证回答。条件可以是开放领域问题中的一个实体，也可以是数学问题中的一个数值，只需极少的努力（通过提示）即可识别。我们提出了一个 "先验证后纠正 "的迭代框架，用于逐步识别和纠正（可能是）错误的回答，并将其命名为 ProCo。我们在三个推理任务中进行了实验。与 "自我纠正 "相比，使用 GPT-3.5-Turbo 作为后端 LLM 的 ProCo 在四个开放域问题解答数据集上的准确匹配率平均提高了 6.8 美元，在三个算术推理数据集上的准确率提高了 14.1 美元，在一个常识推理数据集上的准确率提高了 9.6 美元。

33.TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment

标题:TOPA：通过纯文本预对齐扩展用于视频理解的大型语言模型
author:Wei Li, Hehe Fan, Yongkang Wong, Mohan Kankanhalli, Yi Yang
publish:32 pages, 12 figures, 11 tables
date Time:2024-05-22

paper pdf:http://arxiv.org/pdf/2405.13911v1

摘要：

图像理解领域的最新进展得益于网络图像-文本对的广泛使用。然而，尽管有大量的网络视频-文本数据，视频理解仍然是一个挑战。这一困难主要源于视频固有的复杂性和最近网络收集的视频-文本数据集中低效的语言监督。在本文中，我们介绍了纯文本预对齐（TOPA），这是一种扩展大型语言模型（LLM）用于视频理解的新方法，无需在真实视频数据上进行预训练。具体来说，我们首先利用先进的 LLM 自动生成由连续文本帧组成的文本视频以及相应的注释，以模拟真实的视频文本数据。然后，利用这些注释文本视频将纯语言 LLM 与视频模式进行预对齐。为了缩小文本视频与真实视频之间的差距，我们采用 CLIP 模型作为特征提取器来对齐图像和文本模态。在纯文本预对齐过程中，以 CLIP 文本特征序列编码的连续文本帧类似于连续的 CLIP 图像特征，从而将 LLM 与真实视频表示法对齐。广泛的实验（包括在各种视频理解任务上的零镜头评估和微调）表明，TOPA 是一种有效且高效的视频内容与 LLM 对齐框架。特别是，在没有任何视频数据训练的情况下，TOPA-Llama2-13B 模型在具有挑战性的长视频理解基准 Egoschema 上达到了 51.0% 的 Top-1 准确率。这一成绩超越了以前的视频文本预训练方法，并证明了与最近基于 GPT-3.5 的视频代理的竞争力。

34.Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

标题:利用任务感知课程规划提炼大型语言模型的教学跟踪能力
author:Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang
date Time:2024-05-22

paper pdf:http://arxiv.org/pdf/2405.13448v1

摘要：

指令调整过程是将预先训练好的大型语言模型（LLM）与开放域指令和人类偏好的反应相匹配。虽然有几项研究探索了从 ChatGPT 等功能更强大的专有 LLM 中提炼和注释指令的自主方法，但这些研究往往忽视了任务分配和训练集中不同难度指令的影响。这种疏忽会导致小型学生 LLM 的知识能力不平衡，泛化能力差。为了应对这一挑战，我们引入了任务感知课程规划教学提炼（TAPIR），这是一种具有均衡任务分配和动态难度调整功能的多轮提炼框架。这种方法利用甲骨文 LLM 来选择学生 LLM 难以遵循的指令，并以均衡的任务分布来提炼指令。通过结合课程规划，我们的方法系统地提升了难度级别，逐步增强了学生 LLM 的能力。我们使用两个广受认可的基准（包括 AlpacaEval 2.0 和 MT-Bench）对 TAPIR 进行了严格评估。实证结果表明，使用我们的方法和较少的训练数据训练出来的学生 LLM 优于较大的指令调整模型和强蒸馏基线。这种改进在逻辑推理和代码生成等复杂任务中尤为明显。

35.Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction

标题:先分散后合并：通过减少对齐税来突破指令调整的极限
author:Tingchen Fu, Deng Cai, Lemao Liu, Shuming Shi, Rui Yan
publish:Accepted to the findings of ACL2024
date Time:2024-05-22

paper pdf:http://arxiv.org/pdf/2405.13432v1

摘要：

在指令跟随语料库上进行监督微调（SFT）是实现大型语言模型（LLM）对齐的重要方法。然而，LLMs 在标准知识和推理基准上的表现往往会在 SFT 过程的后期出现恶化，这与配准税现象不谋而合。通过试点研究，我们提出了一个假设，即数据偏差可能是造成这一现象的原因之一。为了解决这个问题，我们引入了一个简单的先分散后合并框架。具体来说，我们将指令跟踪数据分散成若干部分，并使用不同的数据部分训练多个子模型。然后，我们通过模型合并技术将多个模型合并为一个模型。尽管我们的框架很简单，但在一系列标准知识和推理基准测试中，我们的框架优于各种复杂方法，如数据整理和训练正则化。

36.Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting

标题:低资源环境下大型语言模型 (LLM) 不同高效微调方法的比较分析
author:Krishna Prasad Varadarajan Srinivasan, Prasanth Gumpena, Madhusudhana Yattapu, Vishal H. Brahmbhatt
publish:9 pages of main paper, 1 page of references, 6 appendix pages, 11

figures, 18 tables
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.13181v1

摘要：

在大型语言模型（LLMs）领域，arXiv:2305.16938研究表明，少数几次全模型微调（即香草微调（FT）和基于模式的微调（PBFT））和上下文学习（ICL）在域外（OOD）数据集上的泛化效果相似，但在任务适应性方面有所不同。不过，它们都提出了挑战，尤其是在内存要求方面。在本文中，我们进一步尝试推动对 LLM 不同微调策略的理解，并旨在将各种微调策略放在同一台阶上，在两个不同的数据集上与全模型微调进行详细比较。为此，我们进行了一系列实验，首先在两个数据集（COLA 和 MNLI）的预训练模型上采用了最先进的方法，如 vanilla 微调和基于模式的微调（PBFT）。然后，我们研究了自适应微调和 LoRA 适配程序在少数情况下的效率。最后，我们还比较了最近流行起来的一种替代方法--上下文提炼法--与虚构的 FT 和 PBFT（带或不带少次访问设置）。我们的研究结果表明，我们探索的这些替代策略可以表现出与 vanilla FT 和 PBFT 相媲美的域外泛化能力。PBFT 在域外（OOD）数据上的表现不如 Vanilla FT，这强调了有效提示的必要性。此外，我们的自适应微调和 LoRA 实验的表现与预期的标准微调相当或略差，因为标准微调涉及到整个模型的调整。最后，我们的语境提炼实验表现优于标准微调方法。这些发现强调，选择合适的微调方法最终取决于可用资源（内存、计算、数据）和任务适应性。

37.ReALLM: A general framework for LLM compression and fine-tuning

标题:ReALLM：用于 LLM 压缩和微调的通用框架
author:Louis Leconte, Lisa Bedin, Van Minh Nguyen, Eric Moulines
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.13155v1

摘要：

我们介绍了 ReALLM，这是一种用于压缩预训练语言模型并对其进行内存效率调整的新方法，它包含了大部分训练后量化和微调方法，预算小于 4 位。预训练矩阵被分解为高精度低秩分量和矢量量化潜在表示（使用自动编码器）。在微调步骤中，只更新低秩分量。我们的结果表明，预训练矩阵表现出不同的模式。ReALLM 根据每个矩阵调整编码器的形状（小/大嵌入、高/低位 VQ 等）。ReALLM 建议用 b b b比特的小嵌入和 b ϕ b_\phi bϕ比特权重的神经解码器模型 m a t h c a l D ϕ mathcal{D}_\phi mathcalDϕ来表示每个矩阵。矩阵的解压缩只需要一次嵌入和解码器的一次前向传递。在语言生成任务（C4 和 WikiText-2）中，我们的纯权重量化算法在预算为 3 美元比特时无需任何训练即可获得最佳结果。在预算为 2 美元比特的情况下，ReALLM 在一个小型校准数据集上进行微调后达到了最先进的性能。

38.Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents

标题:对抗性 DPO：利用有害数据减少毒性，同时尽量不影响对话代理的一致性和回避性
author:San Kim, Gary Geunbae Lee
publish:15 pages, 7 figures, accepted to NAACL findings 2024
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.12900v1

摘要：

高质量的大型语言模型（LLM）和各种有效的训练方法的出现推动了开放域对话系统的最新进展。然而，这些模型中存在的毒性是一个重大挑战，可能会降低用户体验。在本研究中，我们引入了一种创新的训练算法，它是对直接偏好优化（DPO）的改进，称为对抗性 DPO（ADPO）。ADPO 算法旨在训练模型，为首选响应分配更高的概率分布，为不安全响应分配更低的概率分布，这些响应是使用有毒控制标记自行生成的。我们证明，ADPO 增强了模型抵御有害对话的能力，同时将性能下降降至最低。此外，我们还说明，与传统的 DPO 相比，ADPO 提供了一种更稳定的训练程序。据我们所知，这是第一个直接将有害数据纳入生成模型的 DPO 算法，从而减少了人为创建安全对话数据的需要。

39.Large Language Models Meet NLP: A Survey

标题:大型语言模型与 NLP 的结合：一项调查
author:Libo Qin, Qiguang Chen, Xiachong Feng, Yang Wu, Yongheng Zhang, Yinghui Li, Min Li, Wanxiang Che, Philip S. Yu
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.12819v1

摘要：

虽然大型语言模型（LLMs）（如 ChatGPT）在自然语言处理（NLP）任务中表现出了令人印象深刻的能力，但对其在这一领域的潜力的系统性研究在很大程度上仍未得到开发。本研究旨在通过探讨以下问题来填补这一空白：(1) 文献中目前是如何将 LLMs 应用于 NLP 任务的？(2) 传统的 NLP 任务是否已经用 LLMs 解决？(3) LLMs 在 NLP 中的前景如何？为了回答这些问题，我们首先对 LLMs 在 NLP 中的应用进行了全面概述。具体来说，我们首先介绍了一种统一的分类法，包括（1）参数冻结应用和（2）参数调整应用，从而为理解 LLMs 在 NLP 中的当前进展提供一个统一的视角。此外，我们还总结了新的前沿领域和相关挑战，旨在激发更多突破性进展。我们希望这项工作能为 LLMs 在 NLP 中的{潜力和局限性}提供有价值的见解，同时为在 NLP 中构建有效的 LLMs 提供实用指南。

40.SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling

标题:SPO：利用内隐奖励模型进行多维偏好序列排列
author:Xingzhou Lou, Junge Zhang, Jian Xie, Lifeng Liu, Dong Yan, Kaiqi Huang
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.12739v1

摘要：

人类偏好对齐对于建立强大可靠的大型语言模型（LLM）至关重要。然而，目前的方法要么忽略了人类偏好的多维性（如乐于助人和无害），要么难以应对管理多个奖励模型的复杂性。为了解决这些问题，我们提出了顺序偏好优化法（SPO），这是一种顺序微调 LLM，使其与人类偏好的多个维度保持一致的方法。SPO 避免了明确的奖励建模，而是直接优化模型，以符合人类的细微偏好。我们从理论上推导出封闭形式的最优 SPO 策略和损失函数。梯度分析表明了 SPO 如何在保持与先前优化维度一致的同时，对 LLM 进行微调。不同规模的 LLM 和多个评估数据集的实证结果表明，SPO 成功地在人类偏好的多个维度上对 LLM 进行了对齐，并显著优于基线。

41.Retrieval-Augmented Language Model for Extreme Multi-Label Knowledge Graph Link Prediction

标题:用于极端多标签知识图谱链接预测的检索增强语言模型
author:Yu-Hsiang Lin, Huang-Ting Shieh, Chih-Yu Liu, Kuang-Ting Lee, Hsiao-Cheng Chang, Jing-Lun Yang, Yu-Sheng Lin
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.12656v1

摘要：

用于开放式探究的大语言模型（LLMs）的推断会遇到两个关键问题：（1）幻觉和（2）昂贵的训练成本。这些问题给专业领域和个性化数据中的 LLMs 带来了挑战，因为它们需要真实的回答和较低的微调成本。现有研究试图通过使用知识图谱（KG）中的信息来增强较小语言模型的输入来解决这一问题。然而，它们有两个局限性：(1) 无法从知识图谱的大型单跳邻域中提取相关信息；(2) 对具有不同特征的知识图谱采用相同的增强策略，可能导致性能低下。此外，开放式查询通常会产生多个回复，这使得推断更加复杂。我们提出了一项新任务--极端多标签 KG 链接预测任务，使模型能够利用结构化的真实世界知识，在多个回复中执行外推。我们的检索器通过综合考虑实体、关系和文本数据来识别相关的单跳邻居。我们的实验证明：(1) 具有不同特征的 KG 需要不同的增强策略；(2) 用文本数据增强语言模型的输入可显著提高任务性能。通过将检索增强框架与 KG 相结合，我们的框架只需很小的参数，就能根据给定的 KG 进行推断。代码可在 GitHub 上获取：https://github.com/exiled1143/Retrieval-Augmented-Language-Model-for-Multi-Label-Knowledge-Graph-Link-Prediction.git

42.Exploration of Masked and Causal Language Modelling for Text Generation

标题:探索用于文本生成的屏蔽和因果语言模型
author:Nicolo Micheletti, Samuel Belkadi, Lifeng Han, Goran Nenadic
publish:working paper
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.12630v1

摘要：

大型语言模型（LLM）在自然语言处理（NLP）领域掀起了一场革命，几乎在该领域的所有任务中都取得了最先进的性能。然而，文本生成中普遍使用的方法--因果语言建模（CLM）--是按从左到右的顺序生成文本的，这从本质上限制了模型的自由度，因为它无法决定每个标记生成的时间和位置。与此相反，主要用于语言理解任务的屏蔽语言建模（MLM）可以在文本的任何位置和任何顺序生成标记。本文对用于文本生成任务的 MLM 和 CLM 方法进行了广泛比较。为此，我们在三个不同的数据集上预先训练了几个规模相当的语言模型，这三个数据集分别是：1）医疗出院摘要；2）电影情节梗概；3）作者身份验证数据集。为了评估生成的质量，我们首先采用量化指标，然后进行定性人工评估，分析连贯性和语法正确性。此外，我们还通过在三个不同的下游任务中使用生成的文本来评估其实用性：1）实体识别；2）文本分类；3）作者身份验证。结果表明，在所有数据集中，MLM 在文本生成方面的表现始终优于 CLM，生成的文本具有更高的量化分数和更好的一致性。研究还发现，生成文本的质量与模型在下游任务中的表现之间没有强相关性。通过这项研究，我们发现用于文本生成的 MLM 具有巨大的研究潜力，并为这一领域的未来研究提供了方向。

43.Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression

标题:利用矩阵分解解锁无数据低位量化，实现 KV 缓存压缩
author:Peiyu Liu, Ze-Feng Gao, Wayne Xin Zhao, Yipeng Ma, Tao Wang, Ji-Rong Wen
publish:11 pages, 6 figures
date Time:2024-05-21

paper pdf:http://arxiv.org/pdf/2405.12591v1

摘要：

键-值（KV）缓存是加速大型语言模型（LLM）推理的一项重要技术，但会产生巨大的内存开销。为了压缩键值缓存的大小，现有的方法往往会降低精度或需要额外的数据进行校准，从而限制了它们在 LLM 部署中的实用性。本文介绍了一种基于张量分解方法的新型无数据低位量化技术--textbf{DecoQuant}，以有效压缩 KV 缓存。我们的核心思想是通过进行张量分解来调整原始矩阵的离群值分布，从而将量化困难从矩阵迁移到分解后的局部张量上。特别的是，我们发现离群值主要集中在小的局部张量上，而大的张量往往具有较窄的取值范围。基于这一发现，我们建议对大张量进行低位量化，同时保持对小张量的高精度表示。此外，我们还利用所提出的量化方法来压缩 LLM 的 KV 缓存以加速推理，并开发了专为 DecoQuant 量身定制的高效去量化内核。通过大量实验，DecoQuant 展示了显著的效率提升，在保持可比生成质量的同时，内存占用减少了高达 $\\sim$ 75% 。

44.Question-Based Retrieval using Atomic Units for Enterprise RAG

标题:为企业 RAG 使用原子单元进行基于问题的检索
author:Vatsal Raina, Mark Gales
publish:10 pages, 2 figures, 3 tables
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.12363v1

摘要：

企业检索增强生成（RAG）提供了一个高度灵活的框架，可将功能强大的大型语言模型（LLM）与可能随时间变化的内部文档相结合。在 RAG 中，首先对文档进行分块。然后针对特定的用户查询检索相关的分块，并将其作为上下文传递给合成器 LLM，以生成查询响应。然而，检索步骤会限制性能，因为不正确的分块会导致合成器 LLM 生成错误的响应。这项研究提出了对标准密集检索步骤进行零点调整的方法，以实现更准确的大块召回。具体来说，首先将一个语块分解为原子语句。然后在这些原子上生成一组合成问题（以大块为上下文）。密集检索包括找到与用户查询最接近的一组合成问题和相关的大块。结果发现，使用原子进行检索比使用块进行检索的召回率更高。使用在原子上生成的合成问题进行检索还能进一步提高性能。检索步骤的召回率越高，使用 RAG 管道的企业 LLM 性能就越高。

45.CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models

标题:CT-Eval：大型语言模型中的中文文本到表格性能基准测试
author:Haoxiang Shi, Jiaan Wang, Jiarong Xu, Cen Wang, Tetsuya Sakai
publish:10 pages
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.12174v1

摘要：

文本到表格（Text-to-Table）旨在生成结构化表格，以传达非结构化文档中的关键信息。现有的文本到表格数据集通常以英语为导向，限制了对非英语语言的研究。与此同时，大语言模型（LLMs）作为多语言环境下的通用任务求解器（如 ChatGPT），在理论上已经取得了巨大的成功，可以实现其他语言的文本到表（text-to-table）。在本文中，我们提出了一个中文文本到表格数据集 CT-Eval，以在该任务中对 LLM 进行基准测试。我们对英文文本到表格数据集的初步分析强调了数据集构建的两个关键因素：数据多样性和数据幻觉。受此启发，CT-Eval 数据集选择了一个流行的中文多学科在线百科全书作为数据源，涵盖 28 个领域，以确保数据的多样性。为了尽量减少数据幻觉，我们首先训练一个 LLM 来判断并过滤掉有幻觉的任务样本，然后由人工标注者来清除验证集和测试集中的幻觉。经过上述处理后，CT-Eval 包含 88.6K 个任务样本。通过 CT-Eval，我们评估了开源和闭源 LLM 的性能。结果表明，与人类判断相比，零镜头 LLM（包括 GPT-4）的性能仍有明显差距。此外，经过微调后，开源 LLM 可以显著提高文本到表的能力，并在很大程度上优于 GPT-4。总之，CT-Eval 不仅能帮助研究人员评估和快速了解现有 LLM 的中文文本到表能力，而且还是大幅提高 LLM 文本到表性能的宝贵资源。

46.Eliciting Problem Specifications via Large Language Models

标题:通过大型语言模型提取问题说明
author:Robert E. Wray, James R. Kirk, John E. Laird
publish:18 pages, Appendix. Submitted to Advances in Cognitive Systems 2024
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.12147v1

摘要：

认知系统通常需要人类将问题定义转化为认知系统可以用来尝试解决问题或执行任务的一些规范。在本文中，我们说明了可以利用大型语言模型（LLM）将自然语言定义的问题类别映射为半正式的规范，然后现有的推理和学习系统可以利用这种规范来解决该问题类别中的实例。我们介绍了支持 LLM 的认知任务分析代理的设计。通过使用 LLM 代理，该系统可为用自然语言指定的任务生成问题空间定义。LLM 提示源于人工智能文献中的问题空间定义和一般问题解决策略（波利亚的《如何解决》）。然后，认知系统就可以使用问题空间规范，应用领域通用的问题解决策略（"弱方法"，如搜索），来解决问题类别中的多个问题实例。这一结果虽然是初步的，但它表明，在保留认知系统的核心能力（如稳健推理和在线学习）的同时，通过问题表述的去中介化，有可能加速认知系统的研究。

47.MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

标题:MoRA：参数高效微调的高次元更新
author:Ting Jiang, Shaohan Huang, Shengyue Luo, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
publish:Work in Progress
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.12130v1

摘要：

低阶适应是一种针对大型语言模型的流行的参数高效微调方法。本文分析了 LoRA 中实现的低阶更新的影响。我们的研究结果表明，低阶更新机制可能会限制 LLM 有效学习和记忆新知识的能力。受此启发，我们提出了一种名为 MoRA 的新方法，它采用方形矩阵来实现高阶更新，同时保持相同数量的可训练参数。为了实现这一目标，我们引入了相应的非参数算子，以减少方阵的输入维度，增加输出维度。此外，这些算子确保了权重可以合并回 LLM，这使得我们的方法可以像 LoRA 一样部署。我们在指令调整、数学推理、持续预训练、记忆和预训练五项任务中对我们的方法进行了全面评估。在内存密集型任务上，我们的方法优于 LoRA，而在其他任务上，我们的方法也取得了相当的性能。

48.KG-RAG: Bridging the Gap Between Knowledge and Creativity

标题:KG-RAG：缩小知识与创造力之间的差距
author:Diego Sanmartin
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.12035v1

摘要：

在开发智能代理系统的过程中，既要确保事实的准确性，又要保持大型语言模型代理（LMAs）的创造能力，这是个重大挑战。在处理知识密集型任务时，LMAs 面临着信息幻觉、灾难性遗忘和长语境处理限制等普遍问题。本文介绍了 KG-RAG（知识图谱-检索增强生成）管道，这是一个新颖的框架，旨在通过将结构化知识图谱（KG）与 LLM 的功能集成来增强 LMA 的知识能力，从而大大降低对 LLM 潜在知识的依赖。KG-RAG 管道从非结构化文本中构建知识图谱，然后对新创建的图谱进行信息检索，从而执行 KGQA（知识图谱问题解答）。检索方法利用了一种名为 "探索链"（CoE）的新算法，该算法从 LLMs 推理中获益，可按顺序探索知识图谱中的节点和关系。在 ComplexWebQuestions 数据集上进行的初步实验表明，在减少幻觉内容方面取得了显著的改进，为开发善于处理知识密集型任务的智能系统指明了一条大有可为的道路。

49.A review on the use of large language models as virtual tutors

标题:关于将大型语言模型用作虚拟导师的综述
author:Silvia García-Méndez, Francisco de Arriba-Pérez, María del Carmen Somoza-López
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.11983v1

摘要：

转换器架构有助于管理自然语言处理的长期依赖关系，是该领域的最新变革之一。这些架构是创新型尖端大型语言模型（LLM）的基础，在多个领域和工业部门引起了巨大反响，其中教育领域尤为突出。因此，这些基于生成式人工智能的解决方案引导着技术的变革、教育方法和内容的发展，以及网络基础设施向高质量学习的迈进。鉴于 LLM 的普及，本综述旨在全面概述那些专门为生成和评估教育材料而设计，并让学生和教师参与其设计或实验计划的解决方案。据我们所知，这是第一篇关于 LLM 的教育应用（如学生评估）的综述。不出所料，这些系统最常见的作用是作为自动生成问题的虚拟导师。此外，最流行的模型是 GTP-3 和 BERT。不过，由于新生成模型的不断推出，预计不久还会有新的作品发表。

50.Unveiling and Manipulating Prompt Influence in Large Language Models

标题:揭示和操纵大型语言模型中的提示影响
author:Zijian Feng, Hanzhang Zhou, Zixiao Zhu, Junlang Qian, Kezhi Mao
publish:ICLR 2024
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.11891v1

摘要：

提示在引导大型语言模型（LLM）做出反应方面起着至关重要的作用。然而，提示中的单个标记（即输入显著性）在形成反应中的复杂作用在很大程度上仍未得到充分探索。现有的突出度方法要么与 LLM 生成目标不一致，要么严重依赖线性假设，从而导致潜在的不准确性。为了解决这一问题，我们提出了代币分布动态法（Token Distribution Dynamics，TDD），这是一种 "简单而有效 "的方法，用于揭示和操纵提示在生成 LLM 输出中的作用。TDD 利用语言模型头（LM head）强大的解释能力来评估输入的显著性。它将输入标记投射到嵌入空间，然后根据词汇的分布动态估算其重要性。我们介绍了三种 TDD 变体：前向、后向和双向，每种变体都能提供对标记相关性的独特见解。广泛的实验表明，在阐明提示和 LLM 输出之间的因果关系方面，TDD 远远超过了最先进的基线。除了单纯的解释之外，我们还将 TDD 应用于两个用于控制文本生成的提示操作任务：零镜头有毒语言抑制和情感引导。实证结果表明，TDD 能够熟练识别提示语中的毒性和情感线索，从而在生成的内容中减轻毒性或调节情感。

51.(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts

标题:(Perhaps) Beyond Human Translation：利用多代理协作翻译超长文学文本
author:Minghao Wu, Yulin Yuan, Gholamreza Haffari, Longyue Wang
publish:work in progress
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.11804v1

摘要：

机器翻译（MT）领域的最新进展大大提高了各个领域的翻译质量。然而，由于文学文本的复杂语言、形象表达和文化细微差别，其翻译仍然是一项艰巨的挑战。在这项工作中，我们为文学翻译引入了一个基于大型语言模型（LLMs）的新型多代理框架，该框架以一家名为 TransAgents 的公司的形式实现，通过利用多个代理的集体能力来反映传统的翻译出版流程，以满足翻译文学作品的复杂需求。为了评估我们系统的有效性，我们提出了两种创新的评估策略：单语人类偏好（MHP）和双语 LLM 偏好（BLP）。MHP 从目标语言单语读者的角度评估译文，而 BLP 则使用高级 LLM 直接比较译文和原文。实证研究结果表明，尽管 d-BLEU 分数较低，但与人类撰写的参考文献相比，人类评估者和 LLM 都更喜欢 TransAgents 的译文，尤其是在需要特定领域知识的体裁中。我们还通过案例研究强调了 TransAgents 的优势和局限性，并提出了未来的研究方向。

52.Large Language Models for Medicine: A Survey

标题:医学大语言模型：调查
author:Yanxin Zheng, Wensheng Gan, Zefeng Chen, Zhenlian Qi, Qian Liang, Philip S. Yu
publish:Preprint. 5 figures,5 tables
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.13055v1

摘要：

为了应对数字经济时代数字智能领域的挑战，人们开发了大型语言模型（LLM）。计算能力和可用资源的提高极大地推动了大型语言模型的发展，使其能够融入人类生活的各个领域。医学 LLM 是重要的应用工具，在各种医疗场景中都具有潜力。在本文中，我们将回顾 LLM 的发展，重点关注医学 LLM 的需求和应用。我们简明扼要地概述了现有模型，旨在探索先进的研究方向，让研究人员在未来的医疗应用中受益。我们强调了医学 LLM 在应用中的优势，以及在开发过程中遇到的挑战。最后，我们提出了减轻挑战的技术整合方向和未来医学 LLM 的潜在研究方向，旨在更好地满足医学领域的需求。

53.OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

标题:OpenRLHF：易用、可扩展、高性能的 RLHF 框架
author:Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
date Time:2024-05-20

paper pdf:http://arxiv.org/pdf/2405.11143v1

摘要：

随着大型语言模型（LLMs）通过扩展规律不断增长，来自人类反馈的强化学习（RLHF）因其出色的性能而备受关注。然而，与单个模型的预训练或微调不同，利用人的反馈强化学习（RLHF）来训练大型语言模型对四个模型之间的协调提出了挑战。我们提出的 OpenRLHF 是一个开源框架，可实现 RLHF 的高效扩展。现有的 RLHF 框架将四个模型放在同一个 GPU 上，与此不同，OpenRLHF 利用 Ray、vLLM 和 DeepSpeed 为超过 70B 参数的模型重新设计了调度，从而提高了资源利用率并采用了多种训练方法。OpenRLHF 与 Hugging Face 无缝集成，提供了一个具有优化算法和启动脚本的开箱即用解决方案，确保了用户友好性。OpenRLHF 实现了 RLHF、DPO、剔除采样和其他配准技术。OpenRLHF 的代码可在 https://github.com/OpenLLMAI/OpenRLHF 网站上获取，为最先进的 LLM 开发提供了支持。