每周AI论文速递（240715-240719）

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

SpreadsheetLLM：优化大语言模型处理电子表格的能力电子表格因其广泛的双维网格、多样化的布局和格式选项，给大语言模型（LLMs）带来了显著挑战。为此，我们推出了SpreadsheetLLM，这是一种创新的编码方法，旨在充分发挥和优化LLMs在电子表格上的理解和推理能力。我们首先提出了一种包含单元格地址、值和格式的朴素序列化方法。然而，由于LLMs的Token限制，这种方法在实际应用中并不实用。为了解决这一问题，我们开发了SheetCompressor，这是一个创新的编码框架，专门用于有效压缩电子表格以适应LLMs。该框架包括三个模块：基于结构锚点的压缩、逆索引转换和数据格式感知的聚合。实验表明，在GPT4的上下文学习环境中，SheetCompressor在电子表格检测任务中的性能比朴素方法提高了25.6%。此外，经过SheetCompressor微调的LLM平均压缩比达到25倍，同时实现了78.9%的F1分数，超越了现有最佳模型的12.3%。最后，我们提出了电子表格链，用于电子表格理解的下游任务，并在一个新的、要求较高的电子表格QA任务中进行了验证。我们系统地利用了电子表格的固有布局和结构，证明了SpreadsheetLLM在多种电子表格任务中都非常有效。

Human-like Episodic Memory for Infinite Context LLMs

Human-like Episodic Memory for Infinite Context LLMs 大语言模型 (LLMs) 虽然已展现出卓越的能力，但在处理广泛上下文时仍显不足，这限制了它们在长序列中保持连贯性和准确性的能力。相比之下，人脑在组织和检索跨越一生的情节体验方面表现出色。本研究中，我们提出了 EM-LLM，这是一种创新方法，将人类情节记忆和事件认知的关键特性融入 LLMs，使其能够高效处理近乎无限的上下文长度，同时保持计算效率。EM-LLM 通过实时结合贝叶斯惊奇和图论边界细化，将 Token 序列组织成连贯的情节事件。在需要时，这些事件通过结合基于相似性和时间连续性的两阶段记忆检索过程进行访问，从而实现高效且类人的信息检索。LongBench 数据集上的实验显示，EM-LLM 的性能超越了当前最先进的 InfLLM 模型，整体性能相对提升 4.3%，其中在 PassageRetrieval 任务上提升了 33%。此外，我们的分析表明 EM-LLM 的事件分割与人类感知事件高度相关，这表明人工系统与生物系统之间存在联系。这项研究不仅增强了 LLM 处理扩展上下文的能力，还为探索人类记忆机制提供了一个计算框架，为 AI 和认知科学的跨学科研究开辟了新方向。

Toto: Time Series Optimized Transformer for Observability

Toto: 时间序列优化的 Transformer 在可观测性中的应用本技术报告介绍了由 Datadog 开发的 Toto，这是一种新的时间序列预测领域最先进的基础模型，专门针对可观测性指标进行了优化。Toto 不仅在电力和天气等领域的广义时间序列基准测试中推进了最先进水平，而且是首个为可观测性指标量身定制的通用时间序列预测基础模型。 Toto 在一个包含一万亿时间序列数据点的数据集上进行了训练，这一规模在目前已发布的时间序列基础模型中是最大的。训练数据中，除了公开可用的时间序列数据集外，75% 的数据来自 Datadog 平台提供的完全匿名的数值指标数据点。实验结果显示，Toto 在可观测性数据上超越了现有的时间序列基础模型。同时，它在通用预测任务中也表现卓越，在多个开放基准数据集上实现了最先进的零样本性能。

Qwen2 Technical Report

Qwen2技术报告本报告介绍了Qwen2系列，这是我们最新加入的大语言模型和大多模态模型。我们发布了一套全面的基础和指令调优语言模型，涵盖了从0.5亿到72亿参数的范围，包括密集模型和专家混合模型。Qwen2超越了大多数先前的开放权重模型，包括其前身Qwen1.5，并在语言理解、生成、多语言能力、编码、数学和推理等多个基准上与专有模型相比展现出竞争性能。旗舰模型Qwen2-72B展示了卓越的性能：MMLU上84.2，GPQA上37.9，HumanEval上64.6，GSM8K上89.5，BBH上82.4。指令调优变体Qwen2-72B-Instruct在MT-Bench上9.1，Arena-Hard上48.1，LiveCodeBench上35.7。此外，Qwen2展示了强大的多语言能力，精通约30种语言，包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等，突显了其多功能性和全球影响力。为了促进社区创新和可访问性，我们已在Hugging Face和ModelScope上公开了Qwen2模型权重，以及GitHub上的示例代码等补充材料。这些平台还包括量化、微调和部署的资源，便于广泛的应用和研究工作。

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

学习拒绝：大语言模型隐私风险缓解策略大语言模型 (LLMs) 在自然语言理解和生成方面表现出色。然而，这些模型可能无意中记忆私人信息，从而引发严重的隐私问题。本研究针对如何在不完全重新训练的情况下，使 LLMs 能够保护特定个体的私人数据这一挑战进行了探讨。我们提出了 Return 数据集，该数据集包含 2,492 名来自 Wikipedia 的个体及其相关的 QA 对，旨在评估在真实场景中保护个人数据的机器遗忘 (MU) 方法。此外，我们引入了名字感知遗忘框架 (NAUF) 用于隐私保护，该框架使模型能够识别并保护特定个体的信息，同时不影响其对其他无关个体问题的回答能力。我们的实验结果显示，NAUF 在平均遗忘分数上达到了行业领先水平，较最佳基线方法提升了 5.65 分，有效地保护了目标个体的个人数据，同时维持了模型的整体性能。

NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

NeedleBench: 大语言模型能否在百万级上下文窗口中进行检索与推理？在评估大语言模型的长上下文能力时，从原始长文档中识别与用户查询相关的内容是任何大语言模型基于长文本回答问题的关键前提。我们提出了NeedleBench框架，该框架包含一系列逐步更具挑战性的任务，用于评估双语长上下文能力，涵盖多个长度区间（4k、8k、32k、128k、200k、1000k及以上）和不同深度范围，允许在不同文本深度区域战略性插入关键数据点，以严格测试模型在多样上下文中的检索和推理能力。我们使用NeedleBench框架来评估领先的开源模型在双语长文本中识别与问题相关的关键信息并应用这些信息进行推理的能力。此外，我们提出了祖先追踪挑战（Ancestral Trace Challenge, ATC），以模拟现实世界长上下文任务中可能存在的复杂逻辑推理挑战，提供了一种简单的方法来评估大语言模型在处理复杂长上下文情况下的表现。我们的结果表明，当前的大语言模型在实际长上下文应用中仍有显著改进空间，因为它们在处理可能存在于现实世界长上下文任务中的复杂逻辑推理挑战时遇到困难。所有代码和资源可在OpenCompass上获取：github.com/open-compas...

Qwen2-Audio Technical Report

Qwen2-音频技术报告我们介绍了Qwen-音频的最新进展，这是一个大规模的音频-语言模型，称为Qwen2-音频，它能够接受各种音频信号输入，并执行音频分析或直接根据语音指令进行文本响应。与使用复杂的层次标签不同，我们通过利用不同数据和任务的自然语言提示简化了预训练过程，并进一步扩大了数据量。我们增强了Qwen2-音频的指令遵循能力，并实现了两种不同的音频交互模式，用于语音聊天和音频分析。在语音聊天模式中，用户可以自由地与Qwen2-音频进行语音交互，无需文本输入。在音频分析模式中，用户可以在交互过程中提供音频和文本指令进行分析。我们并未使用系统提示来切换语音聊天和音频分析模式。Qwen2-音频能够智能地理解音频中的内容，并根据语音命令做出适当的响应。例如，在包含声音、多说话者对话及语音命令的音频片段中，Qwen2-音频能直接理解命令并作出相应解释和响应。此外，DPO在事实性和遵循期望行为方面优化了模型的性能。根据AIR-Bench的评估结果，Qwen2-音频在以音频为中心的指令遵循能力测试中优于之前的领先技术，如Gemini-1.5-pro。Qwen2-音频是开源的，旨在促进多模态语言社区的发展。

Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

Spectra: 三元、量化及FP16语言模型的综合研究后训练量化(post-training quantization)是解决大语言模型(LLM)推理中内存瓶颈的主要方法，但遗憾的是，它在4位精度以下会遭受显著的性能下降。另一种方法是直接在低比特宽度(例如，二进制或三元模型)上训练压缩模型。然而，这类模型的性能、训练动态及扩展趋势尚未被充分理解。为此，我们训练并公开发布了包含54个语言模型的Spectra LLM套件，参数范围从99M到3.9B，训练于300B Token上。Spectra包括FloatLMs、后训练量化QuantLMs(3、4、6和8位)以及三元LLMs(TriLMs)------我们针对三元语言建模改进的架构，显著优于先前提出的同尺寸(以比特计)三元模型，在大规模上匹配半精度模型。例如，TriLM 3.9B在比特宽度上小于半精度FloatLM 830M，但在常识推理和知识基准测试中与半精度FloatLM 3.9B相当。然而，TriLM 3.9B在毒性和刻板印象方面与尺寸大六倍的FloatLM 3.9B相当。此外，TriLM 3.9B在验证集和基于网络的语料库上的困惑度落后于FloatLM，但在如Lambada和PennTreeBank这类噪声较小的数据集上表现更好。为了加深对低比特宽度模型的理解，我们正在发布500+ Spectra套件的中间检查点，网址为github.com/NolanoOrg/S...

AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

AgentPoison: 针对大语言模型智能体的记忆与知识库毒化红队测试大语言模型智能体因其卓越的推理能力、外部知识与工具的运用、API调用及与环境的互动执行，在多领域应用中表现突出。这些智能体普遍采用记忆模块或检索增强生成（RAG）机制，从知识库中提取过往知识和相似嵌入实例，以支持任务规划与执行。然而，对未经核实的知识库的依赖，引发了对其安全性和可靠性的严重担忧。为揭示此类隐患，我们提出了一种创新的红队测试方法------AgentPoison，这是首个通过毒化长期记忆或RAG知识库，针对通用及基于RAG的大语言模型智能体实施的后门攻击。具体来说，我们将触发器生成过程构建为一个约束优化问题，通过将触发实例映射至特定嵌入空间，优化后门触发器，确保用户指令一旦包含此触发器，恶意演示能高概率从毒化记忆或知识库中被检索。同时，不含触发器的正常指令性能不受影响。与传统后门攻击不同，AgentPoison无需额外模型训练或微调，其优化触发器展现出高度的可迁移性、上下文一致性和隐蔽性。广泛实验表明，AgentPoison对三种实际大语言模型智能体------基于RAG的自动驾驶智能体、知识密集型问答智能体及医疗健康EHRAgent------的攻击效果显著。在各智能体上，AgentPoison平均攻击成功率超过80%，对正常性能影响极小（低于1%），毒化率低于0.1%。

GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression

GoldFinch：高性能 RWKV/Transformer 混合模型，实现线性预填充与极致 KV-缓存压缩我们推出 GoldFinch，一种结合线性注意力与 Transformer 的序列模型，通过创新技术在时间与空间上实现线性复杂度，高效生成高度压缩且可重用的 KV-缓存。GoldFinch 将新型 GOLD Transformer 架构叠加于增强版 Finch (RWKV-6) 之上。我们训练了规模达 1.5B 参数的 Finch、Llama 及 GoldFinch 模型，发现其建模性能较 Finch 和 Llama 有显著提升。缓存节省量随模型层数线性增长，常见尺寸下比传统 Transformer 缓存小 756-2550 倍，使得即使在资源受限的硬件上也能进行超长上下文推理。尽管自回归生成因注意力机制每个 Token 需 O(n) 时间，但通过循环神经网络 (RNN) 预填充初始缓存状态仅需每个 Token O(1) 时间。我们依据 Apache 2.0 许可证发布训练权重与代码，供社区使用。

E5-V: Universal Embeddings with Multimodal Large Language Models

E5-V: 多模态大语言模型的通用嵌入多模态大语言模型 (MLLMs) 在通用视觉和语言理解方面展示了有前景的进展。然而，使用 MLLMs 表示多模态信息的方法仍然很大程度上未被探索。在这项工作中，我们引入了一个新的框架，E5-V，旨在使 MLLMs 实现通用多模态嵌入。我们的研究发现，与先前的方法相比，MLLMs 在表示多模态输入方面具有显著潜力。通过利用带有提示的 MLLMs，E5-V 有效地弥合了不同类型输入之间的模态差距，即使在未进行微调的情况下，也展示了强大的多模态嵌入性能。我们为 E5-V 提出了一种单一模态训练方法，其中模型仅在文本对上进行训练。这种方法在图像-文本对的传统多模态训练上显示出显著的改进，同时将训练成本降低了约 95%。此外，这种方法消除了对昂贵的多模态训练数据收集的需求。在四种类型任务上的广泛实验证明了 E5-V 的有效性。作为一个通用多模态模型，E5-V 不仅达到了而且在许多情况下超过了每个任务的最新性能，尽管它是在单一模态上训练的。

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

词汇量扩展定律：更大模型值得更大词汇量大语言模型 (LLMs) 的扩展研究主要集中在模型参数和训练数据大小上，忽视了词汇量大小的重要性。直观上，更大的词汇量通过用更少的 Token 表示句子来实现更高效的 Tokenization，但同时也增加了对罕见 Token 表示不足的风险。我们通过在多达 500B 字符的数据上训练从 33M 到 3B 参数的模型，并采用不同的词汇配置，来研究词汇量对 LLM 扩展定律的影响。我们提出了三种互补的方法来预测计算最优的词汇量大小：IsoFLOPs 分析、导数估计和损失函数的参数拟合。这些方法一致认为，最优词汇量大小取决于可用的计算预算，并且更大模型值得更大词汇量。然而，大多数 LLM 使用的词汇量过小。例如，我们预测 Llama2-70B 的最优词汇量应至少为 216K，远超其当前的 32K 词汇量。我们通过在不同 FLOPs 预算下训练 3B 参数的模型来实证验证我们的预测。采用我们预测的最优词汇量持续改善了下游性能，相比于常用词汇量。通过将传统 32K 词汇量增加到 43K，我们在相同的 2.3e21 FLOPs 下将 ARC-Challenge 的性能从 29.1 提升到 32.0。我们的工作强调了在高效扩展时联合考虑模型参数和词汇量的必要性。