每周AI论文速递（240916-240920）

InstantDrag: Improving Interactivity in Drag-based Image Editing

基于拖拽的图像编辑因其交互性和精确性而最近受到青睐。然而，尽管文本到图像模型能够在几秒钟内生成样本，但拖拽编辑仍然落后，这是由于在保持图像内容的同时准确反映用户交互的挑战。一些现有方法依赖于计算密集型的每图像优化或复杂的基于引导的方法，需要额外的输入，如可移动区域的掩码和文本提示，从而降低了编辑过程的交互性。我们引入了 InstantDrag，一个无需优化的管道，提升了交互性和速度，只需要图像和拖拽指令作为输入。InstantDrag 包含两个精心设计的网络：一个拖拽条件的光流生成器 (FlowGen) 和一个光流条件扩散模型 (FlowDiffusion)。InstantDrag 通过将任务分解为运动生成和运动条件图像生成，在真实世界视频数据集上进行学习，从而学习基于拖拽的图像编辑的运动动态。我们通过在面部视频数据集和一般场景上的实验展示了 InstantDrag 快速、逼真编辑的能力，无需掩码或文本提示。这些结果突显了我们的方法在处理基于拖拽的图像编辑中的效率，使其成为交互式、实时应用的有前途的解决方案。

Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

Seed-Music: 高质量与可控音乐生成的统一框架

我们推出 Seed-Music，这是一套能够生成高质量音乐并实现精细风格控制的音乐生成系统。该统一框架融合了自回归语言建模与扩散技术，支持两种核心音乐创作流程：可控音乐生成与后期制作编辑。在可控音乐生成方面，系统能够从多模态输入（如风格描述、音频参考、乐谱及语音提示）中生成具备表演控制的声乐作品。在后期制作编辑方面，系统提供交互式工具，允许用户直接在生成的音频中编辑歌词与声乐旋律。我们建议读者访问 team.doubao.com/seed-music 以收听演示音频示例。

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

RetrievalAttention: 通过向量检索加速长上下文大语言模型推理

基于 Transformer 的大语言模型 (LLMs) 在多个领域中日益重要。然而，注意力操作的二次时间复杂度使得扩展到更长上下文面临巨大挑战，主要原因是推理延迟极高且缓存键值 (KV) 向量所需的 GPU 内存消耗巨大。本文提出 RetrievalAttention，一种无需训练的注意力计算加速方法。RetrievalAttention 利用注意力的动态稀疏特性，在 CPU 内存中的 KV 向量上构建近似最近邻搜索 (ANNS) 索引，并在生成过程中通过向量搜索检索最相关的向量。由于查询向量与键向量之间存在分布外 (OOD) 问题，现成的 ANNS 索引仍需扫描 O(N) 的数据（通常为所有键的 30%）以确保检索准确性，未能充分利用稀疏性。RetrievalAttention 首先识别了基于 ANNS 的注意力面临的 OOD 挑战，并通过一种能适应查询且仅访问 1-3% 数据的注意力感知向量搜索算法解决此问题，从而实现亚线性时间复杂度。RetrievalAttention 大幅降低了长上下文大语言模型的推理成本，同时保持模型精度，并显著减少 GPU 内存需求。具体而言，RetrievalAttention 仅需 16GB GPU 内存即可在 8B 参数的 LLMs 中处理 128K 个 Token，并在单个 NVIDIA RTX4090 (24GB) 上以 0.188 秒的速度生成一个 Token。

Kolmogorov-Arnold Transformer

Transformer 是现代深度学习的基石。传统上，这些模型依赖多层感知器 (MLP) 层来混合通道间的信息。在本文中，我们介绍了一种新颖的架构------Kolmogorov-Arnold Transformer (KAT)，它用 Kolmogorov-Arnold Network (KAN) 层取代 MLP 层，以增强模型的表达能力和性能。然而，将 KAN 集成到 Transformer 中并非易事，尤其是在规模扩大时。

具体来说，我们确定了三个关键挑战：(C1) 基函数。KAN 中使用的标准 B 样条函数未针对现代硬件上的并行计算进行优化，导致推理速度较慢。(C2) 参数和计算效率低下。KAN 需要为每个输入-输出对提供一个独特的函数，使得计算量极大。(C3) 权重初始化。由于 KAN 中的可学习激活函数对于实现深度神经网络中的收敛至关重要，因此权重的初始化尤为困难。

为了克服上述挑战，我们提出了三个关键解决方案：(S1) 有理基。我们用有理函数替换 B 样条函数，以提高与现代 GPU 的兼容性。通过在 CUDA 中实现这一点，我们实现了更快的计算。(S2) 组 KAN。我们通过一组神经元共享激活权重，以在不牺牲性能的情况下减少计算负载。(S3) 方差保持初始化。我们仔细初始化激活权重，以确保激活方差在各层之间保持不变。通过这些设计，KAT 能够有效扩展并轻松超越传统的基于 MLP 的 Transformer。

OmniGen: Unified Image Generation

OmniGen: 统一图像生成

在这项工作中，我们介绍了 OmniGen，一种用于统一图像生成的新型扩散模型。与流行的扩散模型（例如，Stable Diffusion）不同，OmniGen 不再需要额外的模块，如 ControlNet 或 IP-Adapter，来处理多样化的控制条件。OmniGen 具有以下特点：1) 统一性：OmniGen 不仅展示了文本到图像的生成能力，还自然支持其他下游任务，如图像编辑、主题驱动生成和视觉条件生成。此外，OmniGen 能够将经典计算机视觉任务（如边缘检测和人体姿态识别）转换为图像生成任务来处理。2) 简洁性：OmniGen 的架构经过高度优化，无需额外文本编码器。与现有扩散模型相比，它更加用户友好，能够通过简单指令完成复杂任务，无需额外预处理步骤（例如，人体姿态估计），从而大幅简化了图像生成的工作流程。3) 知识转移：通过在统一框架中学习，OmniGen 能够有效跨任务转移知识，处理未见过的任务和领域，并展现出新的能力。我们还探讨了模型的推理能力及链式思维机制的潜在应用。这项工作首次尝试构建通用图像生成模型，仍存在一些未解决的问题。我们将在 github.com/VectorSpace... 开源相关资源，以推动该领域的发展。

NVLM: Open Frontier-Class Multimodal LLMs

NVLM: 开放前沿级多模态大语言模型

我们介绍了 NVLM 1.0，这是一系列前沿级的多模态大语言模型 (LLM)，在视觉语言任务上达到了最先进的结果，与领先的专有模型 (例如，GPT-4o) 和开放访问模型 (例如，Llama 3-V 405B 和 InternVL 2) 相媲美。值得注意的是，NVLM 1.0 在多模态训练后，其文本性能相较于其 LLM 骨干模型有所提升。在模型设计方面，我们对仅解码器的多模态 LLM (例如，LLaVA) 和基于交叉注意力的模型 (例如，Flamingo) 进行了全面比较。基于这两种方法的优缺点，我们提出了一种新颖的架构，增强了训练效率和多模态推理能力。此外，我们引入了一种 1-D 瓦片标记设计，用于基于瓦片的动态高分辨率图像，显著提升了多模态推理和 OCR 相关任务的性能。关于训练数据，我们精心策划并提供了关于我们的多模态预训练和监督微调数据集的详细信息。我们的研究结果表明，数据集质量和任务多样性比规模更为重要，即使在所有架构的预训练阶段也是如此。值得注意的是，我们为 NVLM-1.0 模型开发了生产级的多模态能力，使它们在视觉语言任务中表现出色，同时保持甚至提高了与其 LLM 骨干模型相比的文本性能。为了实现这一点，我们将高质量的纯文本数据集与大量的多模态数学和推理数据一起融入多模态训练中，从而在各模态中增强了数学和编码能力。为了推动该领域的研究，我们将发布模型权重，并将开源代码供社区使用：nvlm-project.github.io/。

Qwen2.5-Coder Technical Report

Qwen2.5-Coder 技术报告

在本报告中，我们介绍了 Qwen2.5-Coder 系列，这是对 CodeQwen1.5 的重大升级。该系列包含两个模型：Qwen2.5-Coder-1.5B 和 Qwen2.5-Coder-7B。作为代码专用模型，Qwen2.5-Coder 基于 Qwen2.5 架构，并在超过 5.5 万亿 Token 的数据集上继续预训练。通过精细的数据处理、可扩展的合成数据生成和均衡的数据混合，Qwen2.5-Coder 展示了卓越的代码生成能力，同时保持了通用性。该模型在广泛的代码相关任务中表现出色，在包括代码生成、补全、推理和修复在内的多个基准测试中达到了最先进的（SOTA）性能，持续超越了同规模的其他大型模型。我们相信，Qwen2.5-Coder 系列的发布不仅将推动代码智能研究的前沿，而且通过其宽松的许可，将鼓励开发者在实际应用中更广泛地采用。

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

我们推出了Qwen2-VL系列，这是对之前Qwen-VL模型的重大升级，彻底改变了视觉处理中固定分辨率的传统方法。Qwen2-VL引入了朴素动态分辨率机制，该机制允许模型根据图像的分辨率动态调整生成的视觉Token数量。这种方法不仅提高了视觉表示的效率和准确性，还更贴近人类的感知方式。此外，模型还集成了多模态旋转位置嵌入（M-RoPE），有效融合了文本、图像和视频中的位置信息。我们采用了一种统一的框架来处理图像和视频，显著提升了模型的视觉感知能力。为了深入挖掘大型多模态模型的潜力，Qwen2-VL还研究了大型视觉-语言模型（LVLMs）的扩展规律。通过扩大模型规模（包括2B、8B和72B参数版本）和增加训练数据量，Qwen2-VL系列在性能上表现出色，与GPT-4o和Claude3.5-Sonnet等顶尖模型不相上下，并在多个多模态基准测试中超越了其他通用模型。代码可在github.com/QwenLM/Qwen...

A Controlled Study on Long Context Extension and Generalization in LLMs

大语言模型中长上下文扩展与泛化的控制研究

广泛的文本理解和上下文学习需要能够处理完整文档上下文的语言模型。由于直接训练长上下文模型存在技术挑战，许多方法被提出以增强模型处理长上下文的能力。然而，由于数据和模型类型的差异，比较这些方法一直具有挑战性，导致如何评估长上下文性能以及其是否与标准评估不同存在不确定性。我们实施了一个控制协议，用于对扩展方法进行标准化评估，使用一致的基础模型和扩展数据。我们的研究揭示了长上下文行为的几个见解。首先，我们重申了困惑度在长上下文任务中作为通用性能指标的关键作用。其次，我们发现当前的近似注意力方法在长上下文任务中系统性地表现不佳。最后，我们确认基于精确微调的方法在其扩展范围内通常是有效的，而外推仍然具有挑战性。所有代码库、模型和检查点将作为开源发布，促进透明度并促进这一关键人工智能发展领域的进一步研究。

LLMs + Persona-Plug = Personalized LLMs

大语言模型 + Persona-Plug = 个性化大语言模型

个性化在众多语言任务和应用中至关重要，因为即使需求相同，用户也可能因其个人兴趣而偏好不同的输出。这推动了多种个性化方法的发展，旨在使大语言模型 (LLMs) 生成符合用户偏好的定制化输出。其中一些方法为每位用户微调一个独特的个性化大语言模型，但这种方法成本过高，难以广泛应用。另一种方法通过检索用户相关历史文本作为示范，以即插即用的方式引入个性化信息。然而，这种基于检索的策略可能破坏用户历史的连续性，无法全面捕捉用户的风格和模式，导致性能不佳。为应对这些挑战，我们提出了一种新颖的个性化大语言模型。该模型通过轻量级插件用户嵌入模块，为每位用户构建一个特定嵌入，全面建模其历史上下文。通过将此嵌入附加到任务输入，大语言模型能更深入地理解和捕捉用户习惯与偏好，从而在不调整自身参数的情况下生成更个性化的输出。在语言模型个性化 (LaMP) 基准的各项任务上进行的广泛实验表明，所提出的模型显著优于现有个性化大语言模型方法。

Training Language Models to Self-Correct via Reinforcement Learning

通过强化学习训练语言模型进行自我修正

自我修正能力是大语言模型 (LLMs) 非常理想的能力，但在现代 LLMs 中，它一直被发现是基本无效的。现有的训练自我修正的方法要么需要多个模型，要么依赖于更强大的模型或其他形式的监督。为此，我们开发了一种多轮在线强化学习 (RL) 方法，SCoRe，该方法完全使用自生成数据显著提高了 LLM 的自我修正能力。为了构建 SCoRe，我们首先展示了在离线模型生成的修正轨迹上进行监督微调 (SFT) 的变体不足以灌输自我修正行为。特别是，我们观察到通过 SFT 训练要么在训练数据与模型自身响应之间存在分布不匹配，要么隐含地偏好某种特定的修正行为模式，这种模式在测试时往往无效。SCoRe 通过在模型自身生成的修正轨迹分布下进行训练，并使用适当的正则化来引导学习过程，从而学习一种在测试时有效的自我修正策略，而不是简单地拟合给定提示的高奖励响应，从而解决了这些挑战。这种正则化规定首先在基础模型上运行第一阶段的 RL，以生成一个不易崩溃的策略初始化，然后在训练过程中使用奖励加成来放大自我修正。当应用于 Gemini 1.0 Pro 和 1.5 Flash 模型时，我们发现 SCoRe 实现了最先进的自我修正性能，分别在 MATH 和 HumanEval 基准测试中将基础模型的自我修正能力提高了 15.6% 和 9.1%。

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

InfiMM-WebMath-40B: 推进多模态预训练以增强数学推理能力

在大规模、高质量数据集上进行预训练对于提升大语言模型 (LLM) 的推理能力至关重要，特别是在数学等专业领域。尽管其重要性已广受认可，但目前多模态大语言模型 (MLLM) 领域缺乏一个专门为数学推理设计且全面的开源预训练数据集。为填补这一空白，我们推出了 InfiMM-WebMath-40B，这是一个高质量的交错图像-文本文档数据集。它包含 2400 万网页、8500 万相关图像 URL 和 400 亿文本 Token，均精心从 CommonCrawl 中提取和过滤。我们详细介绍了数据收集和处理流程。为展示 InfiMM-WebMath-40B 的鲁棒性，我们在纯文本和多模态设置下进行了评估。我们在纯文本基准上的评估显示，尽管只使用了 400 亿 Token，我们的数据集显著提升了 13 亿参数模型的性能，达到了与使用 1200 亿 Token 的 DeepSeekMath-1.3B 相当的水平。然而，随着我们多模态数学预训练数据集的引入，我们的模型在 MathVerse 和 We-Math 等多模态数学基准上创下了开源模型的新纪录。我们已在 huggingface.co/datasets/In... 发布数据。

MMSearch: 评估大模型作为多模态搜索引擎的潜力

大语言模型 (LLM) 的出现为 AI 搜索引擎开辟了新路径，例如 SearchGPT，展示了人机交互的新模式。然而，当前大多数 AI 搜索引擎仅限于纯文本环境，未能充分考虑多模态用户查询以及网站信息中文本与图像交织的特性。近期，大型多模态模型 (LMM) 取得了显著进展。然而，它们是否能胜任 AI 搜索引擎的角色仍未得到充分探索，这使得 LMM 在多模态搜索中的潜力成为一个待解之谜。为此，我们首先设计了一个精细的管道，即 MMSearch-Engine，旨在赋予任何 LMM 多模态搜索的能力。在此基础上，我们引入了 MMSearch，一个全面的评估基准，用于衡量 LMM 在多模态搜索中的表现。我们精心策划的数据集包含 300 个手动收集的实例，涵盖 14 个子领域，且与当前 LMM 的训练数据无重叠，确保正确答案只能通过搜索获得。通过使用 MMSearch-Engine，LMM 需完成三个独立任务（重新查询、重新排序和总结）以及一个包含完整搜索过程的挑战性端到端任务。我们对闭源和开源的 LMM 进行了广泛的实验。在所有测试的模型中，GPT-4o 结合 MMSearch-Engine 表现最佳，在端到端任务中超越了商业产品 Perplexity Pro，充分证明了我们提出的管道的有效性。我们还进行了错误分析，揭示了当前 LMM 在完全掌握多模态搜索任务方面仍面临挑战，并进行了消融研究，以表明扩大测试时计算对 AI 搜索引擎的潜在价值。我们期待 MMSearch 能为多模态 AI 搜索引擎的未来发展提供宝贵的见解。项目页面：mmsearch.github.io