Scaling Synthetic Data Creation with 1,000,000,000 Personas

利用 10 亿角色扩展合成数据创建

我们提出了一种新颖的以角色驱动的数据合成方法，该方法利用大语言模型 (LLM) 中的各种视角来创建多样化的合成数据。为了在大规模上充分利用这种方法，我们引入了Persona Hub------一个从网络数据中自动整理的包含10亿个不同角色的集合。这10亿个角色（约占世界总人口的13%），作为世界知识的载体，分布在各处，可以利用LLM中几乎所有的视角，从而在各种场景下促进大规模多样化合成数据的创建。通过展示Persona Hub在大规模合成高质量数学和逻辑推理问题、指令（即用户提示）、知识丰富的文本、游戏NPC和工具（函数）方面的应用案例，我们展示了角色驱动的数据合成的多功能性、可扩展性、灵活性和易用性，这可能推动合成数据创建和应用实践中的范式转变，并可能对LLM的研究和发展产生深远影响。

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

HuatuoGPT-Vision，大规模注入医学视觉知识到多模态LLM中

多模态大语言模型 (MLLMs) 的快速发展，例如GPT-4V，已经取得了显著进展。然而，由于数据隐私问题和高昂的注释成本，这些模型在医学多模态能力方面仍然面临挑战，主要因为医学视觉文本数据的数量和质量有限。尽管开创性的方法利用PubMed的大规模去标识的医学图像文本对来解决这些限制，但由于数据固有的噪声，这些方法仍然不足。为了解决这个问题，我们从PubMed中提炼了医学图像文本对，并以"开放"方式使用MLLMs (GPT-4V) 来去噪和重新格式化数据，从而创建了包含130万个医学VQA样本的PubMedVision数据集。我们的验证表明：(1) PubMedVision可以显著增强当前MLLMs的医学多模态能力，在包括MMMU健康与医学轨道在内的基准测试中表现出显著改进；(2) 医学专家的人工检查和实验证明，我们的数据集质量优于其他数据构建方法。使用PubMedVision，我们训练了一个34B的医学MLLM HuatuoGPT-Vision，在开源MLLMs中表现出色。

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

We-Math：您的大规模多模态模型是否实现了类人数学推理？

视觉数学推理作为一种基本的视觉推理能力，已受到大规模多模态模型 (LMMs) 社区的广泛关注。现有基准，如MathVista和MathVerse，更侧重于结果导向的性能，但忽视了知识获取和泛化的基本原理。受人类数学推理启发，我们引入了WE-MATH，这是第一个专门设计用于探索超越端到端性能的问题解决原则的基准。我们精心收集和分类了6500个视觉数学问题，涵盖67个层级知识概念和五个层级的知识粒度。我们根据所需知识概念将复合问题分解为子问题，并引入了一个新的四维度指标，即知识不足 (IK)、泛化不足 (IG)、完全掌握 (CM) 和死记硬背 (RM)，以分层评估LMMs推理过程中固有的问题。通过WE-MATH，我们对现有LMMs在视觉数学推理方面进行了彻底评估，并揭示了在解决步骤和特定问题性能之间的负相关关系。我们证实，通过知识增强策略可以有效改善LMMs的IK问题。更值得注意的是，GPT-4o的主要挑战已显著从IK转变为IG，使其成为第一个在知识泛化阶段取得进展的LMM。相比之下，其他LMMs表现出明显的死记硬背倾向------它们能正确解决涉及多个知识概念的复合问题，却无法回答子问题。我们期待WE-MATH将为LMMs在视觉数学推理方面的进步开辟新的道路。WE-MATH数据和评估代码可在github.com/We-Math/We-...

ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning

ROS-LLM：一个具有任务反馈和结构化推理的ROS框架

我们提出了一个供非专家使用的直观机器人编程框架，该框架利用自然语言提示和机器人操作系统 (ROS) 提供的上下文信息。我们的系统集成了大语言模型 (LLMs)，使非专家能够通过聊天界面向系统说明任务要求。该框架的主要特点包括：将ROS与连接大量开源和商业LLMs的AI智能体集成，从LLM的输出中自动提取行为并执行ROS动作/服务，支持三种行为模式（顺序、行为树、状态机），通过模仿学习向可能动作库添加新的机器人动作，以及通过人类和环境反馈进行LLM反思。广泛的实验展示了该框架在多种场景中的稳健性、可扩展性和多功能性，包括长时间任务、桌面重新排列和远程监督控制。为了促进我们框架的采用并支持我们结果的再现，我们将代码开源。你可以在：github.com/huawei-noah... 访问。

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

MMEvalPro: 校准多模态基准以实现可信且高效的评估

大规模多模态模型 (LMMs) 展示了令人印象深刻的跨模态理解和推理能力，通常通过包含图像、问题和多个选项的多项选择题 (MCQs) 进行评估。然而，许多用于此类评估的基准测试存在系统偏差。值得注意的是，没有任何视觉感知能力的大语言模型 (LLMs) 也能取得不俗的成绩，削弱了这些评估的可信度。为了在保持MCQ评估效率的同时解决这一问题，我们提出了MMEvalPro，这是一个设计用来避免第一类错误 (Type-I errors) 并采用三重评估管道和更严格指标的基准测试。对于现有基准中的每个原始问题，人类标注者通过细致的标注过程创建一个感知问题和一个知识锚问题来进行补充。MMEvalPro包含2138个问题三元组，总计6414个不同的问题。其中三分之二由人类专家手工标注，其余则来自现有基准 (MMMU, ScienceQA和MathVista)。与现有基准相比，我们对最新LLMs和LMMs的实验表明，MMEvalPro更具挑战性（最佳LMM比人类表现落后31.73%，而之前基准的平均差距为8.03%）且更可信（最佳LLM比最佳LMM落后23.09%，而之前基准的差距仅为14.64%）。我们的深入分析解释了这种较大性能差距的原因，并证明了评估的可信度，强调了其在推动未来研究方面的重要潜力。

LiteSearch: Efficacious Tree Search for LLM

LiteSearch: 高效的LLM树搜索

最近的研究表明，树搜索算法（如蒙特卡罗树搜索）可以显著提升LLM在复杂数学推理任务中的表现。然而，由于浪费性的搜索策略，它们通常需要超过贪心解码10倍以上的计算资源，难以在实际应用中部署。本研究介绍了一种新颖的指导树搜索算法，通过动态节点选择和节点级探索预算（最大子节点数）计算来解决这一问题。通过考虑向最终答案的搜索进展（历史）和由无逐步注释训练的价值网络（未来）提供的指导，我们的算法在分配的计算预算范围内迭代选择最有前途的树节点并展开。对GSM8K和TabMWP数据集进行的实验表明，我们的方法不仅提供了具有竞争力的性能，而且相比基线方法显著降低了计算成本。

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

大海捞针的总结：长上下文LLMs和RAG系统的挑战

大语言模型（LLMs）和检索增强生成（RAG）系统现在能够处理数百万个输入Token或更多。然而，在长上下文任务中评估这些系统的输出质量仍然具有挑战性，因为大海捞针类任务缺乏复杂性。在这项工作中，我们认为摘要可以在这种评估中起到核心作用。我们设计了一种合成文档堆叠（Haystacks）的方法，确保特定的见解在文档中重复出现。然后，"大海捞针摘要"（SummHay）任务要求系统处理这些文档堆叠，并在给定查询的情况下生成一个摘要，识别相关见解并准确引用源文档。由于我们对文档堆叠摘要中应该出现的见解和应该引用的文档有精确的了解，我们实现了一个具有高度可重复性的自动评估系统，从覆盖率和引用两个方面对摘要进行评分。我们在两个领域（对话、新闻）生成了文档堆叠，并对10个LLMs和相应的50个RAG系统进行了大规模评估。我们的发现表明，SummHay对当前系统是一个开放的挑战，因为即使是提供文档相关性Oracle信号的系统在联合评分上也比我们对人类表现的估计（56%）低10+分。在没有检索器的情况下，长上下文LLMs如GPT-4o和Claude 3 Opus在SummHay上的得分低于20%。我们展示了SummHay还可以用来研究企业RAG系统和长上下文模型中的位置偏差。我们希望未来的系统能够在SummHay上达到并超过人类表现。

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

OpenVid-1M：一个用于文本生成视频的大规模高质量数据集

由于大型多模态模型Sora的兴起，文本生成视频（T2V）最近引起了极大的关注。然而，T2V生成仍然面临两个重要挑战：1）缺乏精确的开源高质量数据集。之前流行的视频数据集，如WebVid-10M和Panda-70M，要么质量低，要么对于大多数研究机构来说过于庞大。因此，收集精确高质量的文本视频对对于文本生成视频 (T2V) 是一个具有挑战性但至关重要的任务。2）忽视了充分利用文本信息。最近的T2V方法主要集中在视觉Transformer上，使用简单的交叉注意力模块进行视频生成，未能充分提取文本提示中的语义信息。为了解决这些问题，我们引入了OpenVid-1M，这是一个包含表达性字幕的精确高质量数据集。这个开放场景数据集包含超过100万个文本视频对，促进了文本生成视频 (T2V) 的研究。此外，我们从OpenVid-1M中精选了433K 1080p视频，创建了OpenVidHD-0.4M，推动高清晰度视频生成的进步。此外，我们提出了一种新颖的多模态视频扩散Transformer（MVDiT），能够同时从视觉Token中挖掘结构信息和从文本Token中提取语义信息。大量实验和消融研究验证了OpenVid-1M相对于之前数据集的优越性以及我们MVDiT的有效性。

Agentless: Demystifying LLM-based Software Engineering Agents

Agentless：揭秘基于LLM的软件工程智能体

最近在大语言模型（LLMs）方面的进展显著推进了软件开发任务的自动化，包括代码生成、程序修复和测试生成。最近，研究人员和行业实践者开发了各种自主LLM智能体来执行端到端的软件开发任务。这些智能体具备使用工具、运行命令、观察环境反馈和规划未来行动的能力。然而，这些基于智能体的方法的复杂性，加上当前LLMs的能力有限，提出了以下问题：我们是否真的必须使用复杂的自主软件智能体？为了尝试回答这个问题，我们构建了Agentless------一种无需智能体的自动解决软件开发问题的方法。与基于智能体的方法的冗长和复杂设置相比，Agentless采用简单的两阶段过程：定位问题然后修复，而不让LLM决定未来的行动或使用复杂工具。我们在流行的SWE-bench Lite基准上显示，令人惊讶的是，简单的Agentless在所有现有的开源软件智能体中实现了最高的性能（27.33%）和最低的成本（$0.34）。此外，我们手动分类了SWE-bench Lite中的问题，发现存在准确的地面真相补丁或描述不足/误导性问题。因此，我们构建了SWE-bench Lite-S，通过排除这些问题进行更严格的评估和比较。我们的工作突出了在自主软件开发中被忽视的简单、可解释技术的潜力。我们希望Agentless能够重新设定自主软件智能体的基准、起点和视野，并激发未来在这一重要方向上的工作。

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

InternLM-XComposer-2.5：支持长上下文输入和输出的多功能大型视觉语言模型

我们提出了InternLM-XComposer-2.5（IXC-2.5），这是一种支持长上下文输入和输出的多功能大型视觉语言模型。IXC-2.5在各种文本图像理解和创作应用中表现出色，达到了GPT-4V水平的能力，而其LLM后台仅为7B。通过24K交织的图像-文本上下文训练，它可以通过RoPE外推无缝扩展到96K长上下文。这种长上下文能力使得IXC-2.5在需要广泛上下文输入和输出的任务中表现出色。与之前的2.0版本相比，InternLM-XComposer-2.5在视觉语言理解方面具有三个主要升级：（1）超高分辨率理解，（2）细粒度视频理解，以及（3）多轮多图像对话。除了理解，IXC-2.5还通过额外的LoRA参数扩展到两个引人注目的文本图像创作应用：（1）网页制作和（2）高质量文本图像文章的创作。IXC-2.5在28个基准测试中接受了评估，在16个基准测试中超越了现有的开源最先进模型。在16项关键任务中，它还超越或接近GPT-4V和Gemini Pro。InternLM-XComposer-2.5在github.com/InternLM/In... 上公开可用。

TabReD: A Benchmark of Tabular Machine Learning in-the-Wild

TabReD：真实环境下的表格机器学习基准

反映下游应用场景的基准对于表格机器学习（ML）新研究的顺利采用至关重要。在这项工作中，我们检查了现有的表格基准，发现行业级表格数据的两个常见特征在学术界的可用数据集中代表性不足。首先，表格数据在实际部署场景中经常随时间变化。这会影响模型性能，并需要基于时间的训练和测试拆分进行正确的模型评估。然而，现有的学术表格数据集通常缺乏时间戳元数据来实现这种评估。其次，生产环境中的相当一部分数据集源自广泛的数据采集和特征工程管道。对于每个特定数据集，这可能对预测性、不信息性和相关特征的绝对和相对数量产生不同的影响，从而影响模型选择。为了填补学术基准中的上述空白，我们引入了TabReD------一个涵盖从金融到食品配送服务等广泛领域的八个行业级表格数据集。我们在TabReD提供的特征丰富、时间演变的数据设置中评估了大量表格机器学习模型。我们证明了基于时间的数据拆分评估与学术基准中更常见的随机拆分评估相比，导致了不同的方法排名。此外，在TabReD数据集中，类似MLP的架构和GBDT显示出最佳结果，而更复杂的DL模型尚未证明其有效性。

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

专家专用：稀疏架构大型语言模型的专家专用微调

参数高效微调（PEFT）对于在有限资源下定制大型语言模型（LLMs）至关重要。尽管对于密集架构的LLMs已经有各种PEFT方法，但对于稀疏架构的LLMs的PEFT研究仍然很少。在这项工作中，我们研究了具有专家混合（MoE）架构的LLMs的PEFT方法，本文主要包括三部分内容：（1）我们调查了定制任务中激活专家的分散程度，发现特定任务的路由分布往往高度集中，而不同任务的激活专家分布差异显著。（2）我们提出了专家专门化微调（ESFT），该方法在冻结其他专家和模块的同时，微调与下游任务最相关的专家；实验结果表明，我们的方法不仅提高了微调效率，而且与全参数微调的性能相当甚至更好。（3）我们进一步分析了MoE架构对专家专门化微调的影响。我们发现，具有更细粒度专家的MoE模型在选择与下游任务最相关的专家组合方面更具优势，从而增强了训练效率和效果。

每周AI论文速递（240701-240705）