大模型日报｜7 篇必读的大模型论文

大家好，今日必读的大模型论文来啦！

1.bge-en-icl：利用少量样本生成高质量文本嵌入

采用纯解码器（decoder-only）架构的大语言模型（LLM）具有出色的上下文学习（ICL）能力。这一特性使它们能够利用输入上下文中提供的示例，有效地处理熟悉和新颖的任务。

认识到这种能力的潜力，来自北京智源人工智能研究院的研究团队及其合作者建议利用 LLM 中的 ICL 功能来增强文本嵌入生成过程。为此，他们推出了一个新模型------bge-en-icl，该模型利用少样本生成高质量的文本嵌入。他们的方法将与任务相关的示例直接集成到查询端，显著改善了各种任务。此外，他们还研究了如何有效利用 LLM 作为嵌入模型，包括各种注意力机制和池化方法等。

他们的研究结果表明，保留原始框架往往能获得最佳结果，这凸显了简单就是最好。在 MTEB 和 AIR-Bench 基准上的实验结果表明，他们的方法实现了新的 SOTA 性能。

论文链接：

https://arxiv.org/abs/2409.15700

GitHub 地址：

https://github.com/FlagOpen/FlagEmbedding

2.Google DeepMind：利用视频生成模型实现通用机器人操控

机器人操纵策略如何才能推广到涉及未知物体类型和新运动的新任务中？在这项工作中，来自 Google DeepMind、卡内基梅隆大学和斯坦福大学的研究团队提出了一种解决方案，即通过生成人类视频从网络数据中预测运动信息，并根据生成的视频调整机器人策略。

他们并没有试图扩大机器人数据收集的规模，因为这样做成本高昂，相反，他们展示了如何利用在易于获得的网络数据上训练的视频生成模型来实现通用化。他们提出的 Gen2Act 方法将以语言为条件的操作视为零样本人类视频生成，然后执行以生成的视频为条件的单一策略。为了训练策略，他们使用的机器人交互数据要比训练视频预测模型所使用的数据少一个数量级。

Gen2Act 完全不需要对视频模型进行微调，直接使用预先训练好的模型来生成人类视频。在各种真实世界场景中取得的结果表明，Gen2Act 能够操纵未见过的物体类型，并针对机器人数据中不存在的任务执行新颖的动作。

论文链接：

https://arxiv.org/abs/2409.16283

项目地址：

https://homangab.github.io/gen2act/

3.综述：小语言模型的架构、训练数据集和算法创新

尽管小语言模型（SLM）在智能设备中得到了广泛应用，但与主要部署在数据中心和云环境中的大语言模型（LLM）相比，它们在学术界受到的关注明显较少。SLM 旨在使机器智能在日常任务中更易获得、更经济和更高效。

来自北京邮电大学的研究团队及其合作者以基于 transformer、纯解码器、参数为 100M 到 5B 的语言模型为重点，调查了 59 种 SOTA 开源 SLM，分析了它们在架构、训练数据集和训练算法三个方面的技术创新。此外，他们还评估了 SLM 在常识推理、上下文学习、数学和编码等不同领域的能力。为进一步了解它们在端侧的运行成本，他们对 SLM 的推理延迟和内存占用进行了基准测试。

论文链接：

https://arxiv.org/abs/2409.15790

4.斯坦福、清北团队推出 TFG：扩散模型的统一无需额外训练指导

给定一个无条件扩散模型和一个目标属性预测器（如分类器），无需额外训练引导的目标是在不进行额外训练的情况下生成具有理想目标属性的样本。现有方法虽然在各种个别应用中都有效，但往往缺乏理论基础和大量基准的严格测试。因此，这些方法甚至可能在简单任务上失败，将它们应用到新问题上更是困难重重。

来自斯坦福大学、北京大学和清华大学的研究团队提出了一个新的算法框架，将现有方法作为特例，将无需额外训练引导的研究统一到对算法无关设计空间的分析中。通过理论和实证研究，他们提出了一种高效的超参数搜索策略，可随时应用于任何下游任务。他们对 7 种扩散模型的 16 项任务、40 个目标进行了系统性基准测试，结果显示性能平均提高了 8.5%。

论文链接：

https://arxiv.org/abs/2409.15761

5.综述：多模态大语言模型中的视觉提示

多模态大语言模型（MLLMs）使预先训练好的大语言模型（LLMs）具备了视觉功能。虽然 LLM 中的文本提示已被广泛研究，但视觉提示已出现，可用于更细粒度和自由形式的视觉指令。

来自加州大学圣地亚哥分校的研究团队及其合作者首次全面介绍了 MLLM 中的视觉提示方法，重点关注视觉提示、提示生成、组合推理和提示学习。他们对现有的视觉提示进行了分类，并讨论了在图像上自动进行提示标注的生成方法。他们还研究了视觉提示方法，这些方法能使视觉编码器和骨干 LLM 更好地协调，涉及 MLLM 的视觉定位、对象参照和组合推理能力。此外，他们还总结了模型训练和上下文学习方法，以提高 MLLM 对视觉提示的感知和理解能力。

论文链接：

https://arxiv.org/abs/2409.15310

6.LLM 对齐新研究：奖励鲁棒 RLHF 框架

随着大语言模型（LLM）不断向更高级的智能形式发展，基于人类反馈的强化学习（RLHF）越来越被视为实现通用人工智能（AGI）的关键途径。然而，由于奖励模型（RM）固有的不稳定性和不完善性，依赖基于奖励模型的对齐方法带来了巨大挑战，可能导致奖励黑客和与人类意图不对齐等关键问题。

来自清华大学、百川智能和中国科学院的研究团队提出了一种奖励鲁棒的 RLHF 框架，旨在解决这些基本挑战。他们提出了一个新颖的优化目标，通过结合贝叶斯奖励模型集合（BRME）来模拟奖励函数的不确定性集，从而在性能和鲁棒性之间取得的平衡。这使得该框架能够整合名义性能和最低奖励信号，从而确保即使在奖励模型不完善的情况下也能进行更稳定的学习。

结果表明，在各种基准测试中，他们的框架始终优于传统的 RLHF，显示出更高的准确性和长期稳定性。他们还提供了理论分析，证明奖励稳健型 RLHF 接近恒定奖励设置的稳定性，这在随机案例分析中被证明是有效的。

论文链接：

https://arxiv.org/abs/2409.15360

7.Time-MoE：十亿级尺度时间序列基础模型

过去几十年来，用于时间序列预测的深度学习取得了长足进步。然而，尽管大规模预训练在语言和视觉领域取得了成功，但预训练时间序列模型的规模仍然有限，运行成本也很高，这阻碍了在实际应用中开发更大规模的预测模型。

为此，来自普林斯顿大学、松鼠AI 和格里菲斯大学的研究团队推出了 Time-MoE，这是一种可扩展的统一架构，旨在预训练规模更大、能力更强的预测基础模型，同时降低推理成本。通过利用稀疏混合专家模型（MoE）设计，Time-MoE 在每次预测中只激活网络的一个子集，从而提高了计算效率，在保持高模型容量的同时减少了计算负荷。这使得 Time-MoE 能够有效扩展，而推理成本不会相应增加。Time-MoE 包含一系列纯解码器 Transfomer 模型，这些模型以自回归的方式运行，并支持灵活的预测范围和不同的输入上下文长度。他们在新推出的大规模数据 Time-300B 上对这些模型进行了预训练。他们首次将时间序列基础模型的参数扩展到 24 亿个，显著提高了预测精度。

他们的结果验证了时间序列预测中训练 token 和模型大小的 Scaling Law 的适用性。与具有相同激活参数数或同等计算预算的稠密模型相比，他们的模型始终远远优于它们。这些进步使 Time-MoE 成为应对真实世界时间序列预测挑战的 SOTA 解决方案，具有优秀的能力、效率和灵活性。

论文链接：

https://arxiv.org/abs/2409.16040