AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.01-2024.06.05

文章目录～

[1.Wings: Learning Multimodal LLMs without Text-only Forgetting](#1.Wings: Learning Multimodal LLMs without Text-only Forgetting)
[2.Pre-trained Large Language Models Use Fourier Features to Compute Addition](#2.Pre-trained Large Language Models Use Fourier Features to Compute Addition)
[3.LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback](#3.LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback)
[4.The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games](#4.The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games)
[5.Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation](#5.Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation)
[6.Towards Detecting LLMs Hallucination via Markov Chain-based Multi-agent Debate Framework](#6.Towards Detecting LLMs Hallucination via Markov Chain-based Multi-agent Debate Framework)
[7.From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation](#7.From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation)
[8.BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents](#8.BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents)
[9.Pruner-Zero: Evolving Symbolic Pruning Metric from scratch for Large Language Models](#9.Pruner-Zero: Evolving Symbolic Pruning Metric from scratch for Large Language Models)
[10.HYDRA: Model Factorization Framework for Black-Box LLM Personalization](#10.HYDRA: Model Factorization Framework for Black-Box LLM Personalization)
[11.PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs](#11.PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs)
[12.PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM](#12.PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM)
[13.Language Models can Infer Action Semantics for Classical Planners from Environment Feedback](#13.Language Models can Infer Action Semantics for Classical Planners from Environment Feedback)
[14.Dynamic and Adaptive Feature Generation with LLM](#14.Dynamic and Adaptive Feature Generation with LLM)
[15.Diver: Large Language Model Decoding with Span-Level Mutual Information Verification](#15.Diver: Large Language Model Decoding with Span-Level Mutual Information Verification)
[16.Zyda: A 1.3T Dataset for Open Language Modeling](#16.Zyda: A 1.3T Dataset for Open Language Modeling)
[17.OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models](#17.OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models)
[18.What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores](#18.What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores)
[19.AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation](#19.AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation)
[20.Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function](#20.Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function)
[21.D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models](#21.D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models)
[22.Privacy in LLM-based Recommendation: Recent Advances and Future Directions](#22.Privacy in LLM-based Recommendation: Recent Advances and Future Directions)

1.Wings: Learning Multimodal LLMs without Text-only Forgetting

标题:翅膀在没有纯文本遗忘的情况下学习多模态 LLM
author:Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03496v1

摘要：

多模态大语言模型（MLLM）由训练有素的 LLM 启动，首先将图像与文本对齐，然后对多模态混合输入进行微调。然而，MLLM 会灾难性地遗忘纯文本指令，而这些指令不包括图像，可以在初始 LLM 中解决。在本文中，我们介绍了 Wings，一种在纯文本对话和多模态理解中都表现出色的新型 MLLM。通过分析多模态指令中的 MLLM 注意力，我们发现纯文本遗忘与从图像前文本到图像后文本的注意力转移有关。由此，我们构建了额外的模块，作为增强学习器来补偿注意力的转移。互补的视觉学习器和文本学习器就像两侧的 "翅膀"，并行连接在每一层的注意力区块中。起初，图像和文本输入与视觉学习器一起与主注意力保持一致，以平衡对视觉元素的关注。随后，文本学习器与基于注意力的路由协作整合，将视觉学习器和文本学习器的输出融合在一起。我们设计了低级残留注意力（LoRRA），以保证学习者的高效率。实验结果表明，Wings 在纯文本和视觉答题任务中的表现都优于等比例 MLLM。在一个新构建的交错图像-文本（IIT）基准上，Wings 在从纯文本到多模态的问题解答任务中都表现出了卓越的性能。

2.Pre-trained Large Language Models Use Fourier Features to Compute Addition

标题:预训练大语言模型使用傅立叶特征计算加法
author:Tianyi Zhou, Deqing Fu, Vatsal Sharan, Robin Jia
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03445v1

摘要：

预训练的大型语言模型（LLMs）表现出令人印象深刻的数学推理能力，但它们如何计算加法等基本算术仍不清楚。本文表明，预训练的 LLM 使用傅立叶特征进行加法运算--隐藏状态中的维度通过频域中稀疏的一组特征来表示数字。在该模型中，MLP 层和注意力层以互补的方式使用傅立叶特征：MLP 层主要使用低频特征近似计算答案的大小，而注意力层则主要使用高频特征执行模块加法（例如，计算答案是偶数还是奇数）。预训练对这一机制至关重要：从头开始训练的数字加法模型只能利用低频特征，从而导致准确率降低。在随机初始化的模型中引入预训练的标记嵌入可以挽救其性能。总之，我们的分析表明，适当的预训练表征（如傅立叶特征）可以释放变形金刚的能力，使其能够学习算法任务的精确机制。

3.LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback

标题:利用机器反馈强化学习，基于 LLM 重写不当论证
author:Timon Ziegenbein, Gabriella Skitalinskaya, Alireza Bayat Makou, Henning Wachsmuth
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03363v1

摘要：

确保在线讨论文明且富有成效是社交媒体平台面临的一大挑战。这些平台通常依靠用户和自动检测工具来标记其他用户的不当论点，然后由版主进行审查。然而，这种事后审核既费钱又费时，而且审核人员往往会被标记内容的数量和严重程度压得喘不过气来。相反，一种有前途的替代方法是在内容创建过程中防止负面行为。本文研究了如何通过计算来减少争论中的不当语言。我们提出了一种基于强化学习的重写方法，它能在现有分类器的基础上平衡内容保护和适当性，并将指令调整的大语言模型（LLM）作为我们的初始策略。与相关的风格转换任务不同，改写不恰当的论据允许永久删除和添加内容。因此，它是在文档层面而非句子层面解决的。我们在绝对和相对人类评估研究中对奖励函数的不同加权方案进行了评估。在非并行数据上进行的系统实验证明，我们的方法可以减轻论据的不恰当性，同时在很大程度上保留其内容。它明显优于竞争基线，包括少量学习、提示和人类。

4.The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games

标题:好的、坏的和绿巨人般的 GPT：分析大型语言模型在合作与讨价还价游戏中的情感决策
author:Mikhail Mozikov, Nikita Severin, Valeria Bodishtianu, Maria Glushanina, Mikhail Baklashkin, Andrey V. Savchenko, Ilya Makarov
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03299v1

摘要：

行为研究实验是社会建模和理解人类互动的重要组成部分。在实践中，由于人类用户研究中社会互动和合作的复杂性，许多行为实验都会遇到与内部和外部有效性、可重复性和社会偏见相关的挑战。大型语言模型（LLM）的最新进展为研究人员模拟人类行为提供了一种前景广阔的新工具。然而，现有的基于 LLM 的模拟是在未经证实的假设下运行的，即 LLM 代理的行为与人类相似，并且忽略了人类决策中的一个关键因素：情绪。在本文中，我们介绍了一种新颖的方法和框架，用于研究 LLM 的决策及其在情绪状态下与人类行为的一致性。使用 GPT-3.5 和 GPT-4 对行为博弈论中两个不同类别的四个博弈进行的实验表明，情绪对 LLMs 的表现产生了深远的影响，导致其开发出更多最优策略。GPT-3.5 和人类参与者的行为反应非常一致，在讨价还价游戏中尤为明显，而 GPT-4 则表现出一致的行为，在理性决策中忽略了诱导情绪。令人惊讶的是，情绪提示，尤其是 "危险 "情绪，会破坏 GPT-4 的 "超人 "一致性，使其类似于人类的情绪反应。

5.Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation

标题:探索将用户检索整合到大型语言模型中以实现跨域序列推荐
author:Tingjia Shen, Hao Wang, Jiaqing Zhang, Sirui Zhao, Liangyue Li, Zulong Chen, Defu Lian, Enhong Chen
publish:10 pages, 5 figures
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03085v1

摘要：

跨领域顺序推荐（CDSR）旨在挖掘和传递用户在不同领域的顺序偏好，以缓解长期存在的冷启动问题。传统的 CDSR 模型通过用户和项目建模捕捉协作信息，却忽略了宝贵的语义信息。最近，大语言模型（LLM）展示了强大的语义推理能力，促使我们引入大语言模型来更好地捕捉语义信息。然而，由于无缝信息集成和特定领域生成这两个关键问题，将 LLM 引入 CDSR 并不容易。为此，我们提出了一种名为 URLLM 的新型框架，旨在通过同时探索用户检索方法和 LLM 的领域基础来提高 CDSR 性能。具体来说，我们首先提出了一种新颖的双图顺序模型来捕捉多样化信息，同时提出了一种对齐和对比学习方法来促进领域知识转移。随后，我们采用用户检索生成模型，将结构信息无缝集成到 LLM 中，充分发挥其新兴推理能力。此外，我们还提出了针对特定领域的策略和细化模块，以防止域外生成。在亚马逊上进行的大量实验表明，与最先进的基线相比，URLLM具有信息集成和特定领域生成能力。我们的代码可在 https://github.com/TingJShen/URLLM

6.Towards Detecting LLMs Hallucination via Markov Chain-based Multi-agent Debate Framework

标题:通过基于马尔可夫链的多代理辩论框架检测 LLMs 幻觉
author:Xiaoxi Sun, Jinpeng Li, Yan Zhong, Dongyan Zhao, Rui Yan
publish:18 pages, 3 figures
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03075v1

摘要：

大型语言模型（LLM）的出现促进了自然语言文本生成的发展。同时，它也带来了前所未有的挑战，其中内容幻觉成为一个重要问题。现有的解决方案往往在训练过程中涉及昂贵而复杂的干预。此外，有些方法强调问题分解，却忽视了关键的验证过程，导致性能下降或应用受限。为了克服这些局限性，我们提出了一种基于马尔可夫链的多代理辩论验证框架，以提高简明声明中幻觉检测的准确性。我们的方法整合了事实核查流程，包括索赔检测、证据检索和多代理验证。在验证阶段，我们通过基于马尔可夫链的灵活辩论部署多个代理来验证单个主张，从而确保细致的验证结果。三个生成任务的实验结果表明，我们的方法比基线方法取得了显著的改进。

7.From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation

标题:从泰山到托尔金：控制 LLM 的语言熟练程度以生成内容
author:Ali Malik, Stephen Mayhew, Chris Piech, Klinton Bicknell
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03030v1

摘要：

我们研究了在终端用户（如语言学习者）并不完全精通语言的情况下，如何控制大型语言模型（LLM）生成的文本难度的问题。我们使用一个新颖的框架，利用 GPT-4 以及 LLama2-7B 和 Mistral-7B 等开源替代方案，评估了针对这一任务的几种关键方法的有效性，包括少量提示、监督微调和强化学习 (RL)。我们的研究结果表明，在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。不过，我们展示了如何通过微调和 RL alignment 的精心组合来弥合这一差距。我们的最佳模型 CALM（CEFR-对齐语言模型）的性能超过了 GPT-4 和其他策略，而成本仅为它们的一小部分。我们通过一项小规模的人类研究进一步验证了我们成果的质量。

8.BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents

标题:BadAgent：在 LLM 代理中插入和激活后门攻击
author:Yifei Wang, Dizhan Xue, Shengjie Zhang, Shengsheng Qian
publish:Accepted by ACL 2024
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.03007v1

摘要：

随着大型语言模型（LLM）的蓬勃发展，基于 LLM 的功能强大的智能代理应运而生，可通过一系列用户自定义工具提供定制服务。构建 LLM 代理的最先进方法采用经过训练的 LLM，并根据代理任务的数据对其进行进一步微调。然而，我们的研究表明，这些方法在各种代理任务上很容易受到我们提出的名为 "BadAgent "的后门攻击，通过对后门数据进行微调，可以嵌入后门。在测试时，攻击者可以通过在代理输入或环境中显示触发器，操纵已部署的 LLM 代理执行有害操作。出乎我们意料的是，即使对可信数据进行微调后，我们提出的攻击方法仍然非常稳健。虽然自然语言处理领域已经对后门攻击进行了广泛研究，但就我们所知，我们可能是第一个在 LLM 代理上研究后门攻击的人，由于允许使用外部工具，LLM 代理变得更加危险。我们的工作表明，基于不受信任的 LLM 或数据构建 LLM 代理具有明显的风险。我们的代码公开于 https://github.com/DPamK/BadAgent

9.Pruner-Zero: Evolving Symbolic Pruning Metric from scratch for Large Language Models

标题:Pruner-Zero：为大型语言模型从头开始演化符号剪枝度量
author:Peijie Dong, Lujun Li, Zhenheng Tang, Xiang Liu, Xinglin Pan, Qiang Wang, Xiaowen Chu
publish:Accepted by ICML2024, 29 pages, 4 figures
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.02924v1

摘要：

尽管大型语言模型（LLMs）具有非凡的能力，但由于其庞大的规模，在部署方面仍面临挑战。剪枝方法会丢弃一个权重子集以加快速度，但其中许多方法都需要重新训练，而重新训练的成本和计算要求都非常高。最近，训练后剪枝方法引入了新的指标，无需重新训练即可剪枝 LLM。然而，这些指标需要人类专家的参与和繁琐的试错。为了有效地识别优秀的剪枝指标，我们开发了一个自动框架，利用遗传编程搜索符号剪枝指标。特别是，我们设计了一个包含现有剪枝指标的精细搜索空间，以发现潜在的符号剪枝指标。我们提出了一种对立操作简化策略，以增加群体的多样性。这样，Pruner-Zero 就能自动生成符号剪枝指标。根据搜索结果，我们探讨了剪枝指标与剪枝后性能之间的相关性，并总结了一些原则。在 LLaMA 和 LLaMA-2 的语言建模和零拍任务中进行的大量实验表明，与 SOTA 后训练剪枝方法相比，我们的 Pruner-Zero 获得了更优越的性能。代码见\url{https://github.com/pprp/Pruner-Zero}.

10.HYDRA: Model Factorization Framework for Black-Box LLM Personalization

标题:HYDRA：用于黑盒 LLM 个性化的模型因式分解框架
author:Yuchen Zhuang, Haotian Sun, Yue Yu, Qifan Wang, Chao Zhang, Bo Dai
publish:24 pages, 6 figures, work in progress
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.02888v1

摘要：

个性化已成为现代智能系统的一个重要研究领域，其重点是挖掘用户的行为历史，并根据他们的偏好提供量身定制的体验。尽管黑盒大型语言模型（LLMs）表现出了非凡的寥寥数语能力，但其模型参数固有的不透明性给使生成的输出与个人期望相一致带来了巨大挑战。现有的解决方案主要集中在提示设计上，以纳入用户特定的特征和行为；然而，由于无法捕捉所有用户之间的共享知识，这些方法往往难以有效推广。为了应对这些挑战，我们提出了模型因式分解框架 HYDRA，它既能从历史数据中捕捉用户的特定行为模式，也能捕捉所有用户的共享常识，从而提供个性化的生成。为了捕捉用户特定的行为模式，我们首先训练一个重排器，从检索到的相关历史记录中优先选择最有用的信息。通过将优先级排序后的历史记录与相应的查询相结合，我们训练了一个适配器，使输出结果与用户的特定偏好相一致，从而消除了对黑盒 LLM 固有模型参数访问的依赖。reeranker 和适配器都可以分解成一个基本模型，其中有多个用户特定的头部，就像一个九头蛇。基础模型维护用户间的共享知识，而多个个人头则捕捉用户的特定偏好。实验结果表明，在 LaMP 基准的五种不同个性化任务中，HYDRA 比现有的基于提示的先进方法平均相对提高了 9.01%。我们的实现可在 https://github.com/night-chen/HYDRA 上获得。

11.PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs

标题:PLaD：利用伪偏好对进行基于偏好的大型语言模型提炼
author:Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang
publish:Findings of ACL 2024
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.02886v2

摘要：

大型语言模型（LLM）在各种任务中表现出了令人印象深刻的能力，但其庞大的参数规模限制了其在资源受限环境中的适用性。知识提炼（KD）提供了一种可行的解决方案，它可以将大型教师模型中的专业知识转移到紧凑的学生模型中。然而，传统的知识蒸馏技术在应用于 LLM 时面临着特定的挑战，包括对 LLM 输出的访问受限、教师与学生之间存在巨大的能力差距以及固有的误校准问题。在这项工作中，我们提出了基于偏好的新型 LLM 提炼框架 PLaD。PLaD 利用师生能力差异生成伪偏好对，其中教师输出优于学生输出。然后，PLaD 利用排序损失来重新校准学生对序列可能性的估计，从而引导学生专注于了解输出的相对质量，而不是简单地模仿教师。PLaD 绕过了访问教师 LLM 内部状态的需要，解决了学生表达能力的限制，并缓解了学生校准错误的问题。通过对两个序列生成任务和各种 LLM 的广泛实验，我们证明了所提出的 PLaD 框架的有效性。

标题:PosterLLaVa：用 LLM 构建统一的多模式布局生成器
author:Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
date Time:2024-06-05

paper pdf:http://arxiv.org/pdf/2406.02884v1

摘要：

布局生成是实现自动图形设计的关键所在，它要求以视觉愉悦和遵循约束的方式安排各种多模式设计元素的位置和大小。以往的方法要么在大规模应用中效率低下，要么缺乏灵活性，无法满足不同的设计要求。我们的研究利用多模态大语言模型（MLLM）为自动图形布局生成引入了一个统一的框架，以适应不同的设计任务。相比之下，我们的数据驱动方法采用结构化文本（JSON 格式）和视觉指令调整，在特定的视觉和文本约束（包括用户定义的自然语言规范）下生成布局。我们进行了广泛的实验，并在公开的多模式布局生成基准测试中取得了最先进（SOTA）的性能，证明了我们方法的有效性。此外，考虑到现有数据集在捕捉现实世界图形设计复杂性方面的局限性，我们针对更具挑战性的任务（用户受限生成和复杂海报）提出了两个新数据集，进一步验证了我们的模型在现实生活中的实用性。这种方法以其卓越的可访问性和适应性为标志，进一步实现了大规模图形设计任务的自动化。代码和数据集将在 https://github.com/posterllava/PosterLLaVA 上公开。

13.Language Models can Infer Action Semantics for Classical Planners from Environment Feedback

标题:语言模型可从环境反馈中推断经典规划师的行动语义
author:Wang Zhu, Ishika Singh, Robin Jia, Jesse Thomason
date Time:2024-06-04

paper pdf:http://arxiv.org/pdf/2406.02791v1

摘要：

经典的规划方法可以保证在可能的情况下找到一组可以实现给定目标状态的行动，但需要专家指定控制环境动态的逻辑行动语义。研究人员已经证明，大语言模型（LLM）可用于仅根据常识知识和最小领域信息直接推断规划步骤，但此类规划在执行时往往会失败。我们将经典规划和 LLM 常识推理的优势结合起来，根据与环境本身的闭环互动来执行领域归纳、学习和验证行动前置和后置条件。我们提出了 PSALM，它利用 LLM 推理来启发式地完成经典规划器根据部分领域知识发布的部分计划，并根据执行后的环境反馈以逻辑语言推断领域的语义规则。我们对 7 个环境进行的分析表明，只需一个专家策划的示例计划，使用 LLM 作为启发式规划器和规则预测器就能实现比随机探索更低的环境执行步骤和环境重置，同时还能恢复领域的基本真实行动语义。

14.Dynamic and Adaptive Feature Generation with LLM

标题:利用 LLM 动态生成自适应特征
author:Xinhao Zhang, Jinghan Zhang, Banafsheh Rekabdar, Yuanchun Zhou, Pengfei Wang, Kunpeng Liu
date Time:2024-06-04

paper pdf:http://arxiv.org/pdf/2406.03505v1

摘要：

特征空间的表示是数据点进行矢量化和嵌入以进行下一步建模的重要环境。因此，机器学习（ML）算法的功效与特征工程的质量密切相关。作为最重要的技术之一，特征生成将原始数据转化为有利于模型训练的优化特征空间，并进一步完善该空间。尽管自动特征工程和特征生成技术不断进步，但目前的方法往往存在三个基本问题：缺乏可解释性、适用性有限和策略不灵活。这些缺点经常会阻碍和限制 ML 模型在不同场景中的部署。我们的研究引入了一种采用大型语言模型（LLM）和特征生成提示的新方法来应对这些挑战。我们提出了一种动态自适应特征生成方法，可增强特征生成过程的可解释性。我们的方法扩大了在各种数据类型和任务中的适用性，并具有战略灵活性的优势。大量实验表明，我们的方法明显优于现有方法。

15.Diver: Large Language Model Decoding with Span-Level Mutual Information Verification

标题:Diver：大语言模型解码与跨度级互信息验证
author:Jinliang Lu, Chen Wang, Jiajun Zhang
date Time:2024-06-04

paper pdf:http://arxiv.org/pdf/2406.02120v1

摘要：

大语言模型（LLMs）在获得特定任务指令时，在适应各种任务方面表现出令人印象深刻的能力。然而，使用标准解码策略的 LLMs 在处理与输入的偏差时往往力不从心。直观地说，符合要求的 LLM 输出应该反映输入中存在的信息，这可以用点向互信息（PMI）分数来衡量。因此，我们提出了 Diver，一种通过跨度级 PMI 验证来增强 LLM 解码的新方法。在推理过程中，Diver 会首先识别可能导致多个候选跨度的分歧步骤。随后，如果生成候选跨度，它将通过评估输入的对数似然增益来计算 PMI 分数。最后，根据 PMI 重新排序的输出分布选择最佳跨度。我们在各种下游任务中对我们的方法进行了评估，经验结果表明，Diver 在性能和通用性方面都明显优于现有的解码方法。

16.Zyda: A 1.3T Dataset for Open Language Modeling

标题:Zyda：用于开放语言建模的 1.3T 数据集
author:Yury Tokpanov, Beren Millidge, Paolo Glorioso, Jonathan Pilault, Adam Ibrahim, James Whittington, Quentin Anthony
date Time:2024-06-04

paper pdf:http://arxiv.org/pdf/2406.01981v1

摘要：

近年来，大型语言模型（LLM）的规模急剧扩大，对计算和数据的要求也相应提高。最先进的语言模型，即使规模相对较小，通常也需要在至少一万亿个词库上进行训练。这种飞速发展使可用于大规模 LLM 预训练的开源数据集的增长速度黯然失色。在本文中，我们介绍了 Zyda（Zyphra Dataset），这是一个拥有许可的数据集，包含 1.3 万亿个标记，是通过将几个主要的受人尊敬的开源数据集整合到一个高质量的语料库中而形成的。我们在数据集内部和数据集之间采用了严格的过滤和重复数据删除流程，以保持和提高原始数据集的质量。我们的评估结果表明，Zyda 不仅能与 Dolma、FineWeb 和 RefinedWeb 等其他开放数据集相媲美，还能大幅提高 Pythia 套件中同类模型的性能。我们严格的数据处理方法大大提高了 Zyda 的效率，甚至在独立使用时，其性能也优于其最佳组成数据集。

17.OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models

标题:OLoRA：大型语言模型的正则低域自适应
author:Kerim Büyükakyüz
publish:10 pages, 5 figures
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01775v1

摘要：

大型语言模型（LLM）的出现给自然语言处理带来了革命性的变化，使理解和生成类人文本的能力达到了前所未有的高度。然而，与微调这些模型相关的计算成本和收敛时间仍然是重大挑战。低库自适应（Low-Rank Adaptation，LoRA）通过引入高效的微调技术，减少可训练参数的数量，已成为缓解这些问题的一种有前途的方法。在本文中，我们介绍了 OLoRA，它是 LoRA 方法的增强版，通过 QR 分解利用了正交矩阵初始化。OLoRA 显著加快了 LLM 训练的收敛速度，同时保留了 LoRA 的效率优势，如可训练参数数量和 GPU 内存占用。我们的实证评估表明，与标准 LoRA 相比，OLoRA 不仅收敛速度更快，而且在各种语言建模任务中表现出更高的性能。这一进步为更高效、更方便地微调 LLM 开辟了新的途径，有可能在自然语言应用中实现更广泛的采用和创新。

18.What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores

标题:大型语言模型在大脑中的映射是什么？反对过度依赖大脑评分的理由
author:Ebrahim Feghhi, Nima Hadidi, Bryan Song, Idan A. Blank, Jonathan C. Kao
publish:10 pages, 4 figures in the main paper
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01538v1

摘要：

鉴于大型语言模型（LLM）的卓越能力，人们对评估其与人类大脑的相似性越来越感兴趣。量化这种相似性的一种方法是测量模型预测神经信号的能力，也称为 "大脑得分"。LLM 的内部表征达到了最先进的大脑得分，因此有人推测它们与人类语言处理有着相同的计算原理。只有当 LLM 预测的神经活动子集反映了语言处理的核心要素时，这一推论才是成立的。在此，我们通过分析在一项关于 LLM 与大脑映射的重要研究中使用的三个神经数据集，对这一假设提出质疑，并特别关注参与者阅读短文的 fMRI 数据集。我们首先发现，在使用洗牌训练-测试分割时（如之前对这些数据集的研究一样），编码时间自相关性的微不足道的特征不仅优于 LLMs，而且还占了 LLMs 所解释的神经变异的大部分。因此，我们将继续使用连续分裂。其次，我们解释了未经训练的 LLMs 在大脑中令人惊讶的高分，因为我们发现除了句子长度和句子位置这两个简单特征之外，LLMs 无法解释额外的神经变异。这就削弱了变压器架构使计算更像大脑的证据。第三，我们发现训练有素的 LLMs 在该数据集上的大脑得分在很大程度上可以用句子长度、位置和人称代词参照的静态词嵌入来解释；少量额外的得分可以用特定意义的嵌入和句子结构的上下文表征来解释。我们的结论是，过度依赖大脑得分会导致对 LLM 和大脑之间相似性的过度解读，并强调了解构 LLM 在神经信号中的映射的重要性。

19.AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation

标题:AutoStudio：在多轮交互式图像生成中制作一致的主题
author:Junhao Cheng, Xi Lu, Hanhui Li, Khun Loun Zai, Baiqiao Yin, Yuhao Cheng, Yiqiang Yan, Xiaodan Liang
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01388v1

摘要：

由于最先进的 "文本到图像"（T2I）生成模型已经能够出色地生成单幅图像，一项更具挑战性的任务，即多轮交互式图像生成，开始吸引相关研究领域的关注。这项任务要求模型与用户进行多轮交互，生成连贯的图像序列。然而，由于用户可能会频繁切换拍摄对象，目前的研究很难在生成不同图像的同时保持拍摄对象的一致性。为了解决这个问题，我们引入了一个名为 AutoStudio 的免训练多代理框架。AutoStudio 采用了三个基于大型语言模型（LLM）的代理来处理交互，同时还采用了一个基于稳定扩散（SD）的代理来生成高质量图像。具体来说，AutoStudio 由以下部分组成：(i) 主体管理器，用于解释交互对话并管理每个主体的上下文；(ii) 布局生成器，用于生成控制主体位置的细粒度边界框；(iii) 监督器，用于提供布局改进建议；(iv) 抽屉，用于完成图像生成。此外，我们还在抽屉中引入了一个并行 UNet 来取代原来的 UNet，它采用了两个并行交叉注意模块来利用主体感知特征。我们还引入了主体初始化生成方法，以更好地保存小主体。我们的 AutoStudio 可以交互式地、持续地生成多主体图像序列。在公共 CMIGBench 基准和人工评估上进行的广泛实验表明，AutoStudio 能在多次轮回中很好地保持多主体一致性，而且在平均 Frechet Inception Distance 和平均字符-字符相似度方面分别比最先进的性能提高了 13.65% 和 2.83%。

20.Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function

标题:大型语言模型的表现符合人们的期望吗？测量人类泛化功能
author:Keyon Vafa, Ashesh Rambachan, Sendhil Mullainathan
publish:To appear in ICML 2024
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01382v1

摘要：

大型语言模型 (LLM) 令人印象深刻的地方，也是它们难以评估的地方：用途的多样性。要评估这些模型，我们必须了解它们的用途。我们考虑的情况是，这些部署决策是由人来做出的，尤其是人们对 LLM 将在哪些方面表现出色的看法。我们将这种信念建模为人类概括功能的结果：在看到 LLM 的正确或错误之处后，人们就会概括出它还会在哪些方面取得成功。我们从 MMLU 和 BIG-Bench 基准中收集了 19K 个示例数据集，这些示例说明了人类如何在 79 个任务中进行归纳。我们表明，人类的概括功能可以通过 NLP 方法进行预测：人们有一致的结构化概括方式。然后，我们评估了 LLM 与人类泛化功能的一致性。我们的结果表明--尤其是在犯错成本很高的情况下--能力更强的模型（如 GPT-4）在人们选择使用它们的实例上可能表现更差，这正是因为它们没有与人类泛化功能保持一致。

21.D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models

标题:D-CPT 法：大型语言模型的特定领域持续预训练扩展法则
author:Haoran Que, Jiaheng Liu, Ge Zhang, Chenchen Zhang, Xingwei Qu, Yinghao Ma, Feiyu Duan, Zhiqi Bai, Jiakai Wang, Yuanxing Zhang, Xu Tan, Jie Fu, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01375v1

摘要：

大型语言模型（LLM）上的持续预训练（CPT）已被广泛用于扩展模型对特定下游领域（如数学和代码）的基本理解。对于特定领域 LLM 的 CPT，一个重要的问题是如何选择通用语料库（如 Dolma、Slim-pajama）和下游领域语料库之间的最佳混合比例。现有的方法通常采用费力的人工方法，通过网格搜索一组混合比例，这需要高昂的 GPU 训练消耗成本。此外，我们也无法保证所选比例是特定领域的最佳比例。针对现有方法的局限性，我们受性能预测缩放定律（Scaling Law）的启发，提出研究特定领域持续预训练缩放定律（D-CPT Law），以决定不同规模的 LLM 在可接受的训练成本下的最佳混合比。具体来说，通过拟合 D-CPT 法则，我们可以在有限的实验中使用小规模的训练成本，轻松预测任意混合比、模型大小和数据集大小的一般性能和下游性能。此外，我们还在跨域设置上扩展了标准 D-CPT 定律，并提出了跨域 D-CPT 定律来预测目标域的 D-CPT 定律，而目标域只需要很小的训练成本（约为正常训练成本的 1%）。六个下游领域的综合实验结果证明了我们提出的 D-CPT 法则和跨域 D-CPT 法则的有效性和普适性。

22.Privacy in LLM-based Recommendation: Recent Advances and Future Directions

标题:基于 LLM 的推荐中的隐私问题：最新进展与未来方向
author:Sichun Luo, Wei Shao, Yuxuan Yao, Jian Xu, Mingyang Liu, Qintong Li, Bowei He, Maolin Wang, Guanzhi Deng, Hanxu Hou, Xinyi Zhang, Linqi Song
date Time:2024-06-03

paper pdf:http://arxiv.org/pdf/2406.01363v1

摘要：

如今，大型语言模型（LLM）已与传统推荐模型相结合，以提高推荐性能。然而，虽然现有的大部分工作都集中在提高模型性能上，但隐私问题受到的关注却相对较少。在本文中，我们回顾了基于 LLM 的推荐中隐私问题的最新进展，并将其分为隐私攻击和保护机制两类。此外，我们还强调了几个挑战，并提出了社区解决这些关键问题的未来方向。