开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察，也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中，他盘点分析了 4 月份发布的四个主要新模型：Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。他还通过一篇论文探讨了 DPO 和 PPO 的优劣之处。之后，他分享了 4 月份值得关注的一些研究成果。

Mixtral、Llama 3 和 Phi-3：有什么新东西？

首先，从最重要的话题开始：4 月发布的主要新模型。这一节将简要介绍 Mixtral、Llama 3 和 Phi-3。下一节将会更详细地介绍苹果的 OpenELM。

Mixtral 8x22B：模型越大越好！

Mixtral 8x22B 是 Mistral AI 推出的最新款混合专家（MoE）模型，其发布时采用了宽松的 Apache 2.0 开源许可证。

这个模型类似于 2024 年发布的 Mixtral 8x7B，其背后的关键思路是将 Transformer 架构中的每个前馈模块替换成 8 个专家层。对于 MoE，这里就不多用篇幅解释了，不过作者在今年的一月研究盘点中介绍 Mixtral 8x7B 时详细介绍过 MoE，感兴趣的读者可访问《模型融合、混合专家、更小的 LLM，几篇论文看懂 2024 年 LLM 发展方向》。

Mixtral 一篇博客文章给出了一张很有趣的图，其中在两个轴上比较了 Mixtral 8x22B 与其它几个 LLM：在常用的 MMLU 基准上的建模性能以及活跃参数量（与计算资源需求有关）。

Mixtral 8x22B 与其它一些 LLM 的对比（基于博客 mistral.ai/news/mixtra... ）

Llama 3：数据越多越好！

Meta AI 在 2023 年 2 月发布的首个 Llama 模型是开放式 LLM 的一步重大突破，也是开源 LLM 发展历程的重要节点。因此很自然地，去年发布的 Llama 2 也振奋了每个人的心。现在 Meta AI 已经开始发布的 Llama 3 模型也同样振奋人心。

虽然最大的模型（400B 版本）依然还在训练之中，但他们已经发布了大家熟悉的 8B 和 70B 版本。而且他们的表现很好！下面我们把 Llama 3 加入到上图中。

Llama 3、Mixtral 和其它 LLM 的对比

整体上看，Llama 3 架构几乎与 Llama 2 完全一样。它们之间的主要区别是 Llama 3 的词汇库更大以及 Llama 3 的更小型模型使用了分组查询注意力（grouped-query attention）。至于什么是分组查询注意力，可参阅本文作者写的另一篇文章：magazine.sebastianraschka.com/p/ahead-of-...

下面是用 LitGPT 实现 Llama 2 和 Llama 3 的配置文件，这能清楚方便地展示它们的主要差异。

通过 LitGPT 比较 Llama 2 和 Llama 3 的配置，github.com/Lightning-A...

训练数据的规模

Llama 3 的性能之所以比 Llama 2 好很多，一大主要因素是其数据集大得多。Llama 3 的训练使用了 15 万亿 token，而 Llama 2 只有 2 万亿。

这个发现很有趣，因为根据 Llama 3 博客所言：依照 Chinchilla 扩展律，对于 8B 参数的模型，训练数据的最优数量要少得多，大约为 2000 亿 token。此外，Llama 3 的作者观察到，8B 和 70B 参数的模型在 15 万亿 token 规模上也展现出了对数线性级的提升。这说明，即使训练 token 数量超过 15 万亿，模型也能获得进一步提升。

指令微调和对齐

对于指令微调和对齐，研究者的选择通常有两个：通过近端策略优化（PPO）或无奖励模型的直接偏好优化（DPO）实现使用人类反馈的强化学习（RLHF）。有趣的是，Llama 3 的开发者对这两者并无偏好，他们两个一起用了！（后面一节会更详细地介绍 PPO 和 DPO）。

Llama 3 博客表示 Llama 3 的研究论文会在下一个月发布，到时我们还能看到更多细节。

Phi-3：数据质量越高越好！

就在 Llama 3 盛大发布一周之后，微软发布了其新的 Phi-3 LLM。根据其技术报告中的基准测试结果，最小的 Phi-3 模型也比 Llama 3 8B 模型更强，即便其大小要小一半。

Phi-3、Llama 3、Mixtral 与其它 LLM 的比较

值得注意的是，Phi-3（基于 Llama 架构）训练使用的 token 数量比 Llama 3 少 5 倍，仅有 3.3 万亿，而 Llama 3 则是 15 万亿。Phi-3 甚至使用了和 Llama 2 一样的 token 化器，词汇库大小为 32,064，这比 Llama 3 的词汇库小得多。

另外，Phi-3-mini 的参数量仅有 3.8B，不到 Llama 3 8B 参数量的一半。

那么，Phi-3 有何秘诀？根据其技术报告，其更重视数据质量，而不是数量：「经过严格过滤的网络数据和合成数据」。

其论文并未给出太多数据整编方面的细节，但其很大程度上承袭了之前的 Phi 模型的做法。本文作者之前写过一篇介绍 Phi 模型的文章，参阅：magazine.sebastianraschka.com/p/ahead-of-...

在本文写作时，人们依然不能肯定 Phi-3 是否正如其开发者许诺的那样好。举个例子，很多人都表示，在非基准测试的任务上，Phi-3 的表现比 Llama 3 差得多。

结论

上面三个公开发布的 LLM 让过去的 4 月成为了一个非常特殊的月份。而作者最喜欢的模型还是尚未谈到的 OpenELM，这是下一节的内容。

在实践中，我们应该如何选用这些模型呢？作者认为这三种模型都有各自的吸引点。Mixtral 的活跃参数量低于 Llama 3 70B，但依然能维持相当好的性能水平。Phi-3 3.8B 可能比较适合用于移动设备；其作者表示，Phi-3 3.8B 的一个量化版本可以运行在 iPhone 14 上。而 Llama 3 8B 可能最能吸引各种微调用户，因为使用 LoRA 在单台 GPU 上就能轻松对其进行微调。

OpenELM：一个使用开源训练和推理框架的高效语言模型系列

OpenELM 是苹果公司发布的最新 LLM 模型套件和论文，其目标是提供可在移动设备上部署的小型 LLM。

类似于 OLMo，这篇 LLM 论文的亮眼之处是其详细分享了架构、训练方法和训练数据。

OpenELM 与其它使用同样的数据集、代码和权重的开源 LLM 的比较（这样的模型不多，但都是开放的）。图表来自 OpenELM 论文：arxiv.org/abs/2404.14...

先看一些最相关的信息：

OpenELM 有 4 种相对较小且方便使用的大小：270M、450M、1.1B 和 3B。
每种大小都有一个指令版本可用，其使用了拒绝采样和直接偏好优化进行训练。
OpenELM 的表现稍优于 OLMo，即便其训练使用的 token 数量少 2 倍。
其主要的架构调整是逐层扩展策略。

架构细节

除了逐层扩展策略（细节后面谈），OpenELM 的整体架构设置和超参数配置与 OLMo 和 Llama 等其它 LLM 较为相似，见下图。

OpenELM、最小的 OLMo 模型和最小的 Llama 2 模型的架构和超参数比较。

训练数据集

他们从多个公共数据集（RefinedWeb、RedPajama、The PILE、Dolma）采样了一个相对较小的子集，其中包含 1.8T token。这个子集比 OLMo 训练使用的数据集 Dolma 小 2 倍。但他们是依据什么标准执行这个采样的呢？

其中一位作者表示：「至于数据集，我们在数据集采样方面没有考虑任何理由，就是希望使用 2T token 规模的公共数据集（遵循 LLama 2 的做法）。」

训练 OpenELM 使用的 token 数量与数据集中的 token 原数量（请注意 token 的确切数量取决于所用的 token 化器）。图表来自 OpenELM 论文。

逐层扩展

其使用的逐层扩展策略（基于论文《DeLighT: Deep and Light-weight Transformer》）非常有趣。从本质上讲，这个策略就是从早期到后期的 transformer 模块逐渐对层进行扩宽。特别需要说明，这个过程会保持头的大小恒定，逐渐增加注意力模块中头的数量。前馈模块的维度也会扩展，如下图所示。

LLM 架构，来自作者的著作《Build a Large Language Model from Scratch》

作者表示：「我希望有一个在同样的数据集上使用和不用逐层扩展策略训练 LLM 的消融研究。」但这类实验的成本很高，没人做也就可以理解了。

但是，最早提出逐层扩展策略的论文《DeLighT: Deep and Light-weight Transformer》中有消融研究，这是基于原始的编码器 - 解码器架构在更小的数据集上完成的，如下所示。

标准 transformer 模块和采用了逐层（逐模块）扩展策略的 transformer 模块的比较，来自 DeLighT 论文：arxiv.org/abs/2008.00...

LoRA 与 DoRA

OpenELM 团队还给出了一个意外之喜：比较了 LoRA 与 DoRA 在参数高效型微调方面的表现！结果表明，这两种方法之间并不存在明显的差异。

LoRA 和 DoRA 这两种参数高效型微调方法之间的建模性能比较

结论

尽管 OpenELM 论文并未解答任何研究问题，但它写得很棒，详细透明地给出了 OpenELM 的实现细节。后面我们可能会看到更多 LLM 使用逐层扩展策略。另外，苹果不止发布了这一篇论文，也在 GitHub 上公布了 OpenELM 代码：github.com/apple/coren...

总之，这是很棒的成果，非常感谢其研究团队（以及苹果）与我们分享！

更多详情也可参阅机器之心报道《苹果 OpenAI 合作，力争今年生成式 AI 登陆 iPhone》。

在 LLM 对齐方面，DPO 是否优于 PPO？

论文《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》解答了一个非常关键的问题。（arxiv.org/abs/2404.10... ）

在介绍结果之前，我们先概述一下这篇论文的内容：PPO（近端策略优化）和 DPO（直接偏好优化）都是通过 RLHF（使用人类反馈的强化学习）实现的用于对齐 LLM 的常用方法。

RLHF 是 LLM 开发过程的一大关键组件，其作用是将 LLM 与人类偏好对齐，这可提升 LLM 所生成响应的安全性和实用性等。

典型的 LLM 训练周期

更详细的解释可参看作者上个月发布的文章：magazine.sebastianraschka.com/p/tips-for-...

RLHF-PPO 和 DPO 是什么？

最初的 LLM 对齐方法 RLHF-PPO 一直都是 OpenAI 的 InstructGPT 和 ChatGPT 中部署的 LLM 的主干技术。但是，最近几个月，随着 DPO 微调型 LLM 的涌现，情况发生了变化 ------ 其对公共排行榜产生了重大影响。DPO 广受欢迎的原因也许是其无奖励的特性，这使得其更易使用：不同于 PPO，DPO 并不需要训练一个单独的奖励模型，而是使用一个类似分类的目标来直接更新 LLM。

奖励模型与 DPO 对比

现如今，公共排行榜上大多数 LLM 都是使用 DPO 训练的，而不是 PPO。但不幸的是，在这里介绍的这篇论文之前，还没人在同样的数据集上使用同样的模型比较 PPO 和 DPO 的优劣。

PPO 通常优于 DPO

论文《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》中给出了大量实验的结果，但其中的主要结论是：PPO 通常优于 DPO，且 DPO 更容易受到分布外数据的影响。

这里，分布外数据的意思是 LLM 之前训练所用的指令数据（使用监督式微调）不同于 DPO 所用的偏好数据。举个例子，一个 LLM 首先在常用的 Alpaca 数据集上训练完成，之后再在另一个带有偏好标签的数据集上通过 DPO 进行微调。（为了提升在分布外数据上的 DPO 表现，一种方法是在 DPO 微调之前，添加一轮在偏好数据集上的监督式指令微调。）

下图总结了主要发现。

论文的主要发现

除了上面给出的主要结果，该论文还包含一些额外的实验和消融研究，感兴趣的读者可参看原论文。

最佳实践

此外，这篇论文还包含了一些使用 DPO 和 PPO 时的最佳实践推荐。

举个例子，如果你使用 DPO，一定要确保首先在偏好数据上执行监督式微调。而在现有偏好数据上，迭代式 DPO 更优于 DPO，这需要使用一个已有的奖励模型来标注额外的数据。

如果你使用 PPO，则成功的关键因素包括较大的批量大小、advantage normalization 以及通过指数移动平均进行参数更新。

偏好数据示例，来自 Orca 数据集，huggingface.co/datasets/In...

总结

基于这篇论文的结果可知，如果使用得当，那么 PPO 似乎优于 DPO。但是，考虑到 DPO 的使用和实现都更简单，DPO 可能仍将是大家的首选方法。

作者推荐了一种实践做法：如果你有基本真值奖励标签（这样就不必预训练自己的奖励模型）或可以下载到领域内奖励模型，就使用 PPO。其它情况就使用 DPO，因为它更简单。

另外，根据 LLama 3 博客文章，我们也可以不纠结选哪一个：我们可以两个一起用！举个例子，Llama 3 就遵循以下流程：预训练→监督式微调→拒绝采样→PPO→DPO

四月发布的其它有趣论文

最后，作者 Sebastian Raschka 分享了自己在四月份看到的有趣论文。他表示即使与 LLM 成果大量涌现的前几个月相比，四月份的看点依然很多。

论文：KAN: Kolmogorov--Arnold Networks
链接：arxiv.org/abs/2404.19...

Kolmogorov-Arnold Networks（KAN）是使用在边上的可学习的基于 spline 的函数替换了线性权重参数，并且缺乏固定的激活参数。KAN 似乎是多层感知器（MLP）的一种颇具吸引力的新替代品，其在准确度、神经扩展性能和可解释性方面都有优势。

论文：When to Retrieve:Teaching LLMs to Utilize Information Retrieval Effectively
链接：arxiv.org/abs/2404.19...

这篇论文为 LLM 提出了一种定制版的训练方法，可教会它们在不知道答案时通过一个特殊 token 使用自己的参数记忆或外部信息检索系统。

论文：A Primer on the Inner Workings of Transformer-based Language Models
链接：arxiv.org/abs/2405.00...

这篇入门解读论文简要概述了用于解释基于 Transformer 的仅解码器语言模型所使用的技术。

论文：RAG and RAU:A Survey on Retrieval-Augmented Language Model in Natural Language Processing
链接：arxiv.org/abs/2404.19...

这篇综述全面总结了检索增强型 LLM------ 详细给出了它们的组件、结构、应用和评估方法。

论文：Better & Faster Large Language Models via Multi-token Prediction
链接：arxiv.org/abs/2404.19...

这篇论文认为，训练 LLM 同时预测多个未来 token 而不只是接下来一个 token 可以提升采样效率，同时还能提升 LLM 在生成任务上的性能表现。

论文：LoRA Land:310 Fine-tuned LLMs that Rival GPT-4, A Technical Report
链接：arxiv.org/abs/2405.00...

LoRA 是使用最为广泛的参数高效型微调技术，而这项研究发现 4 bit LoRA 微调的模型既显著优于其基础模型，也优于 GPT-4。

论文：Make Your LLM Fully Utilize the Context, An, Ma, Lin et al.(25 Apr),
链接：arxiv.org/abs/2404.16...

这项研究提出了 FILM-7B。这个模型使用了一种信息密集型方法训练得到，可以解决「中间丢失（lost-in-the-middle）」难题，即 LLM 无法检索上下文窗口中间位置的信息的问题。

论文：Layer Skip:Enabling Early Exit Inference and Self-Speculative Decoding
链接：arxiv.org/abs/2404.16...

LayerSkip 可以加快 LLM 的推理速度，为此其在训练阶段使用了层丢弃和早退，并在推理阶段使用了自推测解码。

论文：Retrieval Head Mechanistically Explains Long-Context Factuality
链接：arxiv.org/abs/2404.15...

这篇论文探索了具有长上下文能力的基于 Transformer 的模型在其注意力机制中如何使用特定的「检索头」来有效地检索信息。从中揭示出这些头是普适的、稀疏的、内在的、动态激活的，并且对于需要参考先验信息或推理的任务至关重要。

论文：Graph Machine Learning in the Era of Large Language Models (LLMs)
链接：arxiv.org/abs/2404.14...

这篇综述论文总结了图神经网络和 LLM 正被逐渐整合起来提升图和推理能力。

论文：NExT:Teaching Large Language Models to Reason about Code Execution
链接：arxiv.org/abs/2404.14...

NExT 是一种通过教 LLM 学习分析程序执行来提升 LLM 理解和修复代码的能力的方法。

论文：Multi-Head Mixture-of-Experts
链接：arxiv.org/abs/2404.15...

这篇论文提出的多头混合专家（MH-MoE）模型可解决稀疏混合专家的专家激活率低和难以应对多语义概念的问题，其做法是引入多头机制，将 token 拆分成被多个专家并行处理的子 token。参看机器之心的报道《微软让 MoE 长出多个头，大幅提升专家激活率》。

论文：A Survey on Self-Evolution of Large Language Models
链接：arxiv.org/abs/2404.14...

这篇论文全面总结了 LLM 的自进化方法，并为 LLM 自进化提出了一个概念框架，另外还给出了提升此类模型的难题和未来方向。

论文：OpenELM:An Efficient Language Model Family with Open-source Training and Inference Framework
链接：arxiv.org/abs/2404.14...

苹果提出的 OpenELM 是一个承袭自 OLMo 的 LLM 套件，包括完整的训练和评估框架、日志、检查点、配置和其它可用于复现研究的工件。

论文：Phi-3 Technical Report:A Highly Capable Language Model Locally on Your Phone
链接：arxiv.org/abs/2404.14...

Phi-3-mini 是基于 3.3 万亿 token 训练的 3.8B 参数 LLM，其基准测试性能可以比肩 Mixtral 8x7B 和 GPT-3.5 等更大型模型。

论文：How Good Are Low-bit Quantized LLaMA3 Models?An Empirical Study
链接：arxiv.org/abs/2404.14...

这项实证研究发现，Meta 的 LLaMA 3 模型在超低位宽下会出现严重的性能下降。

论文：The Instruction Hierarchy:Training LLMs to Prioritize Privileged Instructions
链接：arxiv.org/abs/2404.13...

这项研究提出了一种用于 LLM 的指令层级结构，使其可优先处理受信任的 prompt，在无损其标准能力的前提下提升其应对攻击的稳健性。

论文：OpenBezoar:Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data
链接：arxiv.org/abs/2404.12...

这项研究使用来自 Falcon-40B 的合成数据以及 RLHF 和 DPO 等技术对 OpenLLaMA 3Bv2 模型进行了微调，使其凭借系统性过滤和微调数据以更小的模型规模实现了顶尖的 LLM 任务性能。

论文：Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
链接：arxiv.org/abs/2404.12...

尽管 LLM 在多种任务上表现出色，但它们难以执行复杂的推理和规划。这里提出的 AlphaLLM 整合了蒙特卡洛树搜索，可创建一个自我提升循环，从而无需额外的数据标注也能提升 LLM 执行推理任务的性能。

论文：When LLMs are Unfit Use FastFit:Fast and Effective Text Classification with Many Classes
链接：arxiv.org/abs/2404.12...

FastFit 是一个新的 Python 软件包，可为语言任务快速准确地处理具有很多相似类别的少样本分类，其做法是整合批量对比学习和 token 层面的相似度分数，可带来 3-20 倍的训练速度提升，并且性能也优于 SetFit 和 HF Transformers 等方法。

论文：A Survey on Retrieval-Augmented Text Generation for Large Language Models
链接：arxiv.org/abs/2404.10...

这篇综述论文讨论了检索增强式生成（RAG）是如何将检索技术与深度学习结合到了一起，这可让 LLM 动态集成最新信息。这篇文章还对 RAG 过程进行了分类，回顾了近期进展并提出了未来研究方向。

论文：How Faithful Are RAG Models?Quantifying the Tug-of-War Between RAG and LLMs' Internal Prior
链接：arxiv.org/abs/2404.10...

提供正确的检索信息通常能纠正 GPT-4 等大型语言模型的错误，但不正确的信息往往会重复，除非被强大的内部知识反击。

论文：Scaling (Down) CLIP:A Comprehensive Analysis of Data, Architecture, and Training Strategies
链接：arxiv.org/abs/2404.08...

这篇论文探索了降低对比式语言 - 图像预训练（CLIP）的规模以适配计算预算有限的情况。研究表明，高质量的小规模数据集往往优于大规模低质量数据集，并且对于这些数据集，较小的 ViT 模型是最优的。

论文：Is DPO Superior to PPO for LLM Alignment?A Comprehensive Study
链接：arxiv.org/abs/2404.10...

这项研究探索了直接偏好优化（DPO）和近端策略优化（PPO）在根据人类反馈的强化学习（RLHF）中的效果。结果发现，如果使用得当，PPO 可以在所有案例中超越所有其它替代方法。

论文：Learn Your Reference Model for Real Good Alignment
链接：arxiv.org/abs/2404.09...

这篇论文展现了新的对齐方法：信任区域直接偏好优化（TR-DPO）。其会在训练阶段更新推理策略；其优于现有技术，能提升在多个参数上的模型质量 ------ 在特定数据集上能带来高达 19% 的性能提升。

论文：Chinchilla Scaling:A Replication Attempt
链接：arxiv.org/abs/2404.10...

该论文的作者试图复现 Hoffmann et al. 提出的一种用于估计计算最优型扩展律的方法，其中发现了与使用其它方法得到的原始估计不一致且难以置信的结果。

论文：State Space Model for New-Generation Network Alternative to Transformers:A Survey
链接：arxiv.org/abs/2404.09...

这篇论文给出了对状态空间模型（SSM）的全面概述和实验分析。SSM 是 Transformer 架构的一种高效型替代技术。这篇论文详细说明了 SSM 的原理，其在多个领域的应用，并通过统计数据比较展现了其优势和潜在的未来研究方向。

论文：LLM In-Context Recall is Prompt Dependent
链接：arxiv.org/abs/2404.08...

这项研究评估了多种 LLM 在上下文中进行回忆的能力。其做法是在文本块中嵌入一个仿真陈述（factoid），然后评估模型在不同条件下检索这个信息的性能，结果表明该性能会受到 prompt 内容和训练数据中的潜在偏见的双重影响。

论文：Dataset Reset Policy Optimization for RLHF
链接：arxiv.org/abs/2404.08...

这项研究提出了数据集重置策略优化（DR-PO）。这是一种新的基于人类偏好的反馈的强化学习（RLHF）算法，其能将离线的偏好数据集直接整合进在线的策略训练，从而提升训练效果。

论文：Pre-training Small Base LMs with Fewer Tokens
链接：arxiv.org/abs/2404.08...

这项研究提出了继承微调（Inheritune），可用于开发较小型的基础语言模型。其做法是从大型模型继承一小部分 transformer 模块，然后在该大型模型的一小部分数据上进行训练。结果表明这些小型模型的性能可比肩大型模型，尽管它们使用的训练数据和资源都少得多。

论文：Rho-1:Not All Tokens Are What You Need
链接：arxiv.org/abs/2404.07...

Rho-1 是一种新的语言模型，其训练过程并未采用传统的下一 token 预测方法，而是在展现出更高超额损失的 token 上进行选择性的训练。

论文：Best Practices and Lessons Learned on Synthetic Data for Language Models
链接：arxiv.org/abs/2404.07...

这篇论文总结了 LLM 语境中的合成数据研究。

论文：JetMoE:Reaching Llama2 Performance with 0.1M Dollars, Shen, Guo, Cai, and Qin (11 Apr),
链接：arxiv.org/abs/2404.07...

JetMoE-8B 是一个 8B 参数的稀疏门控式混合专家模型，其训练使用了 1.25 万亿 token，成本不到 10 万美元，但其凭每输入 token 2B 参数和「仅仅」30000 GPU 小时数就在性能表现上超过了 Llama2-7B 等成本更高的模型。

论文：LLoCO:Learning Long Contexts Offline
链接：arxiv.org/abs/2404.07...

LLoCO 这种方法是将上下文压缩、检索和参数高效型微调与 LoRA 结合到一起，从而可以有效地扩展 LLaMA2-7B 模型的上下文窗口，使其可以处理多达 128k token。

论文：Leave No Context Behind:Efficient Infinite Context Transformers with Infini-attention
链接：arxiv.org/abs/2404.07...

这项研究提出了一种扩展基于 transformer 的 LLM 的方法，使其可以高效处理无限长的输入。其思路是在单个 transformer 模块中组合使用多种注意力策略来处理具有广泛上下文需求的任务。

论文：Adapting LLaMA Decoder to Vision Transformer
链接：arxiv.org/abs/2404.06...

这篇论文研究了基于 Llama 等仅解码器 transformer LLM 来执行计算机视觉任务，其做法是使用后序列类别 token 和一种软性掩码策略等技术来修改标准视觉 Transformer（ViT）。

论文：LLM2Vec:Large Language Models Are Secretly Powerful Text Encoders
链接：arxiv.org/abs/2404.05...

这项研究提出了一种简单的无监督方法，可将解码器式的 LLM（如 GPT 和 Llama）转换成强大的文本编码器，其做法有三：1. 禁用因果注意掩码、2. 掩码式下一 token 预测、3. 无监督对比学习。

论文：Elephants Never Forget:Memorization and Learning of Tabular Data in Large Language Models
链接：arxiv.org/abs/2404.06...

这篇论文聚焦于 LLM 中的数据污染和记忆形成等关键问题，结果发现 LLM 往往会记住常见的表格式数据，并且在训练期间见过的数据集上表现更好，而这会导致过拟合。

论文：MiniCPM:Unveiling the Potential of Small Language Models with Scalable Training Strategies
链接：arxiv.org/abs/2404.06...

这项研究提出了一个新的资源高效型「小」语言模型系列，参数量范围在 1.2B 到 2.4B 之间；其中使用的技术包括预热 - 稳定 - 衰减学习率调度器，这对连续预训练和领域适应很有用。

论文：CodecLM:Aligning Language Models with Tailored Synthetic Data
链接：arxiv.org/abs/2404.05...

CodecLM 这个框架是使用编码 - 解码原理和 LLM 作为编解码器自适应地生成用于对齐 LLM 的高质量合成数据，其中包含多种指令分布，能提升 LLM 遵循复杂多样化指令的能力。

论文：Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence
链接：arxiv.org/abs/2404.05...

Eagle 和 Finch 是基于 RWKV 架构的新序列模型，其中引入了多头矩阵状态和动态递归等功能。

论文：AutoCodeRover:Autonomous Program Improvement
链接：arxiv.org/abs/2404.05...

AutoCodeRover 是一种自动化方法，其使用了 LLM 和高级代码搜索通过修改软件程序来解决 GitHub 问题。

论文：Sigma:Siamese Mamba Network for Multi-Modal Semantic Segmentation
链接：arxiv.org/abs/2404.04...

Sigma 是一种使用 Siamese Mamba（结构状态空间模型）网络进行多模态语义分割的方法，它将热度和深度等不同模态与 RGB 相结合，可成为 CNN 和视觉 Transformer 的替代方法。

论文：Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data
链接：arxiv.org/abs/2404.03...

Quote-Tuning 可提升 LLM 的可信度和准确度（相比于标准模型可提升 55% 到 130%），其做法是让 LLM 学会更多地逐词引用可靠来源。

论文：ReFT:Representation Finetuning for Language Models
链接：arxiv.org/abs/2404.03...

这篇论文提出了表征微调（ReFT）方法，该方法类似于参数高效型微调（PEFT），能通过仅修改模型的隐藏表征（而不是整套参数）来高效地适应大型模型。

论文：CantTalkAboutThis:Aligning Language Models to Stay on Topic in Dialogues
链接：arxiv.org/abs/2404.03...

这篇论文提出了 CantTalkAboutThis 数据集，其设计目的是帮助 LLM 在面向任务的对话中不偏离话题（其中包括多种领域的合成对话，并具有分散话题的内容，可以训练模型不偏离话题）。

论文：Training LLMs over Neurally Compressed Text
链接：arxiv.org/abs/2404.03...

这篇论文提出了一种在经过神经压缩的文本（使用一个小型语言模型压缩后的文本）上训练 LLM 的方法，其中使用了一种名为 Equal-Info Windows 的技术 ------ 作用是将文本分割成同等位长的块。

论文：Direct Nash Optimization:Teaching Language Models to Self-Improve with General Preferences
链接：arxiv.org/abs/2404.02...

这篇论文提出了一种用于 LLM 后训练的方法：直接纳什优化（DNO）。该方法是使用来自预言机的偏好反馈来迭代式地提升模型性能，可成为其它 RLHF 方法的替代技术。

论文：Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
链接：arxiv.org/abs/2404.02...

这篇论文探究了交叉注意力在文本条件式扩散模型的推理阶段的工作方式 ------ 研究发现其会在一定位置稳定下来，另外还发现：如果在这个收敛点之后绕过文本输入，可在无损输出质量的情况下简化这个过程。

论文：BAdam:A Memory Efficient Full Parameter Training Method for Large Language Models
链接：arxiv.org/abs/2404.02...

BAdam 是一个内存高效型优化器，可以提升微调 LLM 的效率，而且其使用便捷，仅有一个额外的超参数。

论文：On the Scalability of Diffusion-based Text-to-Image Generation
链接：arxiv.org/abs/2404.02...

这篇论文通过实证研究了基于扩散的文生图模型的扩展性质。其中分析了扩展去噪主干模型和训练集的效果，揭示出：交叉注意力和 transformer 模块的效率会极大影响性能。另外，论文还给出了以更低成本提升文本 - 图像对齐和学习效率的策略。

论文：Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks
链接：arxiv.org/abs/2404.02...

这项研究揭示出：即使围绕安全而构建的最新 LLM 也会被自适应技术轻松越狱。使用对抗性提示工程、利用 API 漏洞和 token 搜索空间限制等方法，对各种模型都能达到接近 100% 的越狱成功率。

论文：Emergent Abilities in Reduced-Scale Generative Language Models
链接：arxiv.org/abs/2404.02...

这项研究发现，如果能将预训练数据集的规模缩小和简化，非常「小」的 LLM（参数量从 1M 到 165M）也能展现出涌现性质。

论文：Long-context LLMs Struggle with Long In-context Learning
链接：arxiv.org/abs/2404.02...

LIConBench 是一个关注长上下文学习和极端标签分类的新基准。实验结果表明，尽管 LLM 擅长处理多达 20K token，但当序列更长时，它们的性能就下降了，只有 GPT-4 例外，这说明在处理上下文信息丰富的文本方面，各个模型之间存在差距。

论文：Mixture-of-Depths:Dynamically Allocating Compute in Transformer-Based Language Models
链接：arxiv.org/abs/2404.02...

这篇论文提出的混合深度方法可让基于 transformer 的语言模型为输入序列的不同部分动态地分配计算资源（FLOPs），从而可通过在每层选取特定的 token 进行处理而实现对性能和效率的优化。参看机器之心报道《DeepMind 升级 Transformer，前向通过 FLOPs 最多可降一半》。

论文：Diffusion-RWKV:Scaling RWKV-Like Architectures for Diffusion Models
链接：arxiv.org/abs/2404.04...

这篇论文提出的 Diffusion-RWKV 是用于 NLP 的 RWKV 架构的一种变体，其中纳入了用于图像生成的扩散模型。

论文：The Fine Line:Navigating Large Language Model Pretraining with Down-streaming Capability Analysis
链接：arxiv.org/abs/2404.01...

这项研究发现使用早期阶段就能预测最终的 LLM，这有助于在预训练期间分析 LLM 并改进预训练设置。

论文：Bigger is not Always Better:Scaling Properties of Latent Diffusion Models
链接：arxiv.org/abs/2404.01...

这项研究探讨了隐扩散模型的大小对不同步骤和任务的采样效率有何影响。结果揭示出：在给定推理预算时，较小的模型往往能得到更高质量的结果。参看机器之心报道《大模型一定就比小模型好？谷歌的这项研究说不一定》。

论文：Do Language Models Plan Ahead for Future Tokens?
链接：arxiv.org/abs/2404.00...

这项研究通过实验发现：Transformer 能在推理阶段通过「预缓存」和「面包屑」机制预测未来信息。参看机器之心报道《Transformer 本可以深谋远虑，但就是不做》。

参考链接：magazine.sebastianraschka.com/p/how-good-...