每周AI论文速递（241028-241101）

ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting

视觉-语言模型 (Vision-language models, VLMs) 在多模态任务中表现出色，但将其应用于开放世界环境中的具身决策仍面临挑战。主要难点在于如何将低级观察中的个体实体与规划所需的抽象概念有效关联。常见的解决方案是采用分层智能体，其中 VLMs 作为高级推理器，将任务分解为可执行的子任务，通常通过语言和虚拟观察来指定。然而，语言在传达空间信息方面往往力不从心，而生成高准确性的未来图像仍具挑战。为此，我们提出了视觉-时间上下文提示，这是一种 VLMs 与策略模型之间的新型通信协议。该协议利用过去和当前观察中的对象分割来指导策略与环境的交互。基于此，我们训练了 ROCKET-1，一个根据连接的视觉观察和分割掩码预测动作的低级策略，实时对象跟踪由 SAM-2 提供。我们的方法充分发挥了 VLMs 的视觉-语言推理能力，使其能够解决复杂的创造性任务，特别是那些高度依赖空间理解的任务。在 Minecraft 中的实验表明，我们的方法使智能体能够完成以往难以完成的任务，突显了视觉-时间上下文提示在具身决策中的有效性。代码和演示将在项目页面上提供：craftjarvis.github.io/ROCKET-1。

Continuous Speech Synthesis using per-token Latent Diffusion

自回归 Transformer 模型在离散 Token 上的成功，激发了基于量化的连续模态方法的发展，尽管这些方法通常会限制重建质量。因此，我们引入了 SALAD，一种用于零样本文本到语音的基于 Token 的潜在扩散模型，该模型在连续表示上进行操作。SALAD 建立在最近提出的用于图像生成的表现性扩散头的基础上，并将其扩展以生成可变长度的输出。我们的方法利用语义 Token 来提供上下文信息并确定停止条件。我们提出了三种连续变体，扩展了流行的离散语音合成技术。此外，我们为每种变体实现了离散基线，并对离散与连续语音建模技术进行了比较分析。我们的结果表明，连续和离散方法都非常有效，并且 SALAD 在获得与真实音频相当的语音质量和说话者相似性的同时，实现了更高的可理解性评分。

GPT-4o System Card

GPT-4o 系统卡

GPT-4o 是一种自回归的多模态模型，能够接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像输出的任意组合。该模型通过文本、视觉和音频进行端到端训练，所有输入和输出均由同一神经网络处理。GPT-4o 能够在 232 毫秒内响应音频输入，平均响应时间为 320 毫秒，接近人类对话中的响应速度。在英语和代码的文本处理方面，GPT-4o 与 GPT-4 Turbo 性能相当，而在非英语语言的文本处理上则有显著提升，同时在 API 中速度更快且成本降低 50%。相较于现有模型，GPT-4o 在视觉和音频理解方面表现尤为突出。

基于我们致力于安全构建 AI 并遵守向白宫自愿做出的承诺，我们发布了 GPT-4o 系统卡，其中包括我们的准备框架评估。在这份系统卡中，我们详细介绍了 GPT-4o 在多个类别中的能力、局限性和安全性评估，重点评估了语音到语音的能力，同时也涵盖了文本和图像能力的评估，以及我们为确保模型安全和一致性所采取的措施。此外，我们还包含了第三方对潜在危险能力的评估，以及对 GPT-4o 文本和视觉能力可能带来的社会影响的讨论。

Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation

Bielik 7B v0.1: 波兰语语言模型 -- 开发、见解和评估

我们介绍了 Bielik 7B v0.1，一个用于波兰语处理的 70 亿参数生成式文本模型。该模型在经过精心筛选的波兰语语料库上进行训练，通过创新技术解决了语言模型开发中的关键挑战。这些技术包括加权指令交叉熵损失 (Weighted Instruction Cross-Entropy Loss)，它平衡了不同指令类型的学习，以及自适应学习率 (Adaptive Learning Rate)，它根据训练进度动态调整学习率。为了评估性能，我们创建了 Open PL LLM 排行榜和波兰 MT-Bench，这些新颖的框架评估了各种 NLP 任务和对话能力。Bielik 7B v0.1 展示了显著的改进，在 RAG Reader 任务中平均得分比 Mistral-7B-v0.1 提升了 9 个百分点。此外，在波兰 MT-Bench 中表现出色，特别是在推理 (6.15/10) 和角色扮演 (7.83/10) 类别中。该模型代表了波兰语 AI 的重大进步，为各种语言应用提供了一个强大的工具，并在该领域设定了新的基准。

A Survey of Small Language Models

小语言模型综述

小语言模型由于其高效性和在最小计算资源下执行各种语言任务的性能，变得越来越重要，成为设备上、移动设备、边缘设备等多种场景的理想选择。在本文中，我们全面调查了小语言模型，重点介绍其架构、训练技术和模型压缩技术。我们提出了一种新的分类法，用于优化小语言模型的方法，包括模型压缩、剪枝和量化技术。我们总结了用于基准测试小语言模型的数据集以及常用的评估指标。此外，我们强调了仍需解决的关键挑战。我们的调查旨在为对开发和部署小型但高效的语言模型感兴趣的研究人员和实践者提供有价值的资源。

AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

AgentStore：异构智能体的可扩展集成作为专业化通才计算机助手

能够自动化复杂计算机任务的数字智能体因其巨大潜力而备受关注，这些潜力极大地增强了人机交互。然而，现有智能体方法在泛化和专业化方面存在不足，特别是在处理现实环境中开放式计算机任务时。受应用商店多样化功能的启发，我们提出了AgentStore，这是一个可扩展平台，旨在动态集成异构智能体以自动化计算机任务。AgentStore允许用户集成第三方智能体，使系统能够不断扩展其功能并适应快速变化的操作系统。此外，我们提出了一种新型核心MetaAgent，采用AgentToken策略，以高效管理多样化的智能体，并利用其专业化和通才能力处理特定领域和系统范围内的任务。在三个挑战性基准测试上的广泛实验表明，AgentStore突破了先前系统在狭窄能力方面的局限，特别是在OSWorld基准测试上，从11.21%提升至23.85%，结果翻倍。全面的定量和定性结果进一步证明了AgentStore在增强智能体系统泛化和专业化方面的能力，突显了其在开发专业化通才计算机助手方面的潜力。我们所有代码将在chengyou-jia.github.io/AgentStore-...

Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

文档解析揭秘：结构化信息提取的技术、挑战与前景

文档解析在将非结构化和半结构化文档（如合同、学术论文和发票）转换为结构化、机器可读数据方面具有重要意义。通过从非结构化输入中提取可靠的结构化数据，文档解析为众多应用带来了极大便利。特别是在大语言模型近期取得显著进展的背景下，文档解析在知识库构建和训练数据生成中发挥着关键作用。本调查报告全面回顾了当前文档解析的技术现状，涵盖了从模块化流水线系统到由大型视觉-语言模型驱动的端到端模型的关键方法。具体分析了布局检测、内容提取（包括文本、表格和数学表达式）以及多模态数据集成等核心组件。此外，本文还探讨了模块化文档解析系统和视觉-语言模型在处理复杂布局、集成多个模块以及识别高密度文本时所面临的挑战。报告强调了开发更大、更多样化数据集的重要性，并指出了未来研究的主要方向。

CLEAR: Character Unlearning in Textual and Visual Modalities

CLEAR: 文本和视觉模态中的字符遗忘

机器遗忘 (MU) 在增强深度学习模型，特别是大型多模态语言模型 (MLLMs) 的隐私和安全性方面至关重要，它通过移除特定的私有或危险信息来实现这一目标。尽管 MU 在文本和视觉模态中取得了显著进展，但多模态遗忘 (MMU) 仍未得到充分探索，部分原因是缺乏合适的开源基准。为此，我们引入了 CLEAR，这是一个新的基准，旨在评估 MMU 方法。CLEAR 包含 200 个虚构个体和 3,700 张图像，与相应的问答对相连，能够在模态之间进行全面评估。我们评估了 10 种 MU 方法，并将其应用于 MMU，同时突出了多模态遗忘特有的新挑战。此外，我们还证明，在 LoRA 权重上简单地应用 ell_1 正则化能显著缓解灾难性遗忘，保持模型在保留数据上的性能。该数据集可在 huggingface.co/datasets/th... 获取。

AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions

AutoKaggle：一个用于自主数据科学竞赛的多智能体框架

表格数据相关的数据科学任务面临复杂挑战，需要先进的问题解决方法。我们提出 AutoKaggle，一个强大且用户友好的框架，通过多智能体协作系统帮助数据科学家完成日常数据流水线。AutoKaggle 采用迭代开发流程，整合代码执行、调试和全面单元测试，确保代码正确性和逻辑一致性。该框架提供高度可定制的工作流，用户可在各阶段介入，实现自动化智能与人类专业知识的融合。我们的通用数据科学工具包，包含数据清洗、特征工程和建模的验证函数，为解决方案奠定基础，通过简化常见任务提升生产力。我们选取了 8 个 Kaggle 竞赛，模拟现实应用场景中的数据处理流程。评估结果显示，AutoKaggle 在典型数据科学流水线中达到 0.85 的验证提交率和 0.82 的综合评分，充分验证了其在处理复杂数据科学任务中的有效性和实用性。

CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

CORAL: 多轮对话检索增强生成基准测试

检索增强生成 (RAG) 已成为通过外部知识检索增强大语言模型 (LLMs) 的强大范式。尽管受到广泛关注，现有学术研究主要集中在单轮 RAG 上，未能充分应对现实应用中多轮对话的复杂性。为填补这一空白，我们引入了 CORAL，这是一个大规模基准测试，旨在评估 RAG 系统在真实多轮对话环境中的表现。

CORAL 包括从维基百科自动导出的多样化信息寻求对话，并应对以下关键挑战：开放领域覆盖、知识密集度、自由形式回复和话题转移。它支持对话 RAG 的三个核心任务：段落检索、回复生成和引用标注。我们提出了一个统一框架，以标准化各种对话 RAG 方法，并在 CORAL 上对这些方法进行了全面评估，展示了改进现有方法的巨大潜力。

Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders

解析 SDXL Turbo：利用稀疏自编码器解读文本到图像模型

稀疏自编码器 (SAEs) 已成为解析大语言模型 (LLMs) 的关键工具。对于 LLMs，SAEs 能够将难以直接解释的中间表示分解为可解释特征的稀疏和，从而提升控制能力和后续分析效果。然而，类似的方法在文本到图像模型中的应用尚不充分。我们研究了使用 SAEs 来解析几步文本到图像扩散模型（如 SDXL Turbo）的可解释特征的可能性。为此，我们在 SDXL Turbo 的去噪 U-net 内的 Transformer 块执行的更新上训练 SAEs。结果显示，SAEs 学习的特征不仅可解释，还对生成过程产生因果影响，并揭示了各块之间的功能专业化。具体而言，我们发现一个主要负责图像构图的块，一个专注于添加局部细节的块，以及一个负责色彩、光照和风格的块。因此，我们的研究为深入理解 SDXL Turbo 等生成式文本到图像模型的内部机制迈出了重要一步，并展示了 SAEs 在视觉领域的应用潜力。代码可在 github.com/surkovv/sdx... 获取。

What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

大语言模型训练中快速与慢速思考时各层的变化：梯度视角

大语言模型训练后有何差异？我们通过梯度视角，研究了在不同响应和初始模型下，大语言模型 (LLMs) 各层的训练模式。特别地，我们关注在链式思维 (CoT) 和过程奖励等推理路径训练下，快速与慢速思考如何影响各层的梯度。研究显示，无 CoT 的快速思考导致各层梯度更大且梯度差异更大，而慢速思考 (详细 CoT) 则显示出学习稳定性的提升。此外，预训练的 LLMs 比指令调优的 LLMs 受快速思考不稳定性的影响更小。我们还探讨了在不同 LLMs 使用慢速与快速思考路径训练时，梯度模式是否能反映响应的正确性。结果表明，慢速思考的梯度能够区分正确与无关的推理路径。作为对比，我们对非推理知识学习任务进行了类似的梯度分析，结果显示，简单增加响应长度并未导致类似慢速思考的行为。我们的研究加深了对 LLM 训练的基本理解，并为提升其效率和稳定性提供了新见解，为构建可泛化的系统 2 智能体铺平了道路。我们的代码、数据和梯度统计可在以下链接找到：github.com/MingLiiii/L...