混合专家 (MoEs) 是人工智能中的一种技术,提供了独特的方法,可以在有效地扩展模型的同时保持甚至提高其性能。这种方法允许在与传统密集模型相同的计算预算内显著增加模型或数据集的大小。因此在预训练阶段,MoEs 模型可以更快地达到与对应密集模型相当的质量。本文将解释专家混合模型是什么,以及相关应用。
认识混合专家
发展和演变
MoEs 的概念可以追溯到 1991 年,该论文名为"自适应局部专家混合 (Adaptive Mixture of Local Experts)"。这项早期工作通过提出一个系统,其中分离的网络(专家)处理不同子集的训练案例,并由一个门控网络引导,为 MoEs 奠定了基础。
2010 年至 2015 年期间见证了对 MoEs 发展的重大进展。其中包括将 MoE 作为更深层网络的组成部分进行探索,以及由 Yoshua Bengio 引入的条件计算,根据输入数据动态激活网络组件。
理解专家混合技术
传统模型训练中的权衡是在模型大小和计算资源之间进行的,更大的模型通常表现更好的性能,但代价是更大的计算需求。MoEs (Mixture of Experts) 反其道而行之,通过使模型在大大减少的计算资源下进行预训练。
专家混合技术组成
稀疏 MoE
在 Transformer 大语言模型的背景下,MoEs 由两个主要元素组成:稀疏 MoE 层和门控网络。与使用在 Transformer 模型中传统的密集前馈网络层 (FFN) 不同,MoEs 采用稀疏的 MoE 层。
稀疏性基于条件计算原则,这使得可以在不成比例地增加计算的情况下扩展模型大小,从而导致在每个 MoE 层中使用数千个专家。每个层都包含几个 "专家",每个专家都是一个神经网络,通常采用 FFN 的形式。这些专家可以在复杂度上有所不同,有趣的是,它们甚至可以包括 MoEs 本身,从而导致层次化的 MoEs 结构的创建。
门控网络 (gate network)
门控网络在确定标记 (token) 路由到适当专家方面发挥着至关重要的作用。这种路由不仅对 MoEs 的功能至关重要,而且还带来了关于标记路由的决策复杂性,其中路由本身是一个在网络预训练期间演变的学习实体。
各种门控机制的研究卓有成效,如噪声 Top-K 门控。该方法向路由过程添加噪声,然后选择前 'k' 个值,在专家利用方面实现效率和多样性的平衡。
大语言模型中的专家混合
GPT-4
2023 年 6 月 20 日,自动驾驶初创公司 Comma.ai 创始人 George Hotz 透露,GPT-4 并非单一的庞大模型,而是由 8 个较小的模型组合而成,每个模型包含 2200 亿个参数。这一泄漏消息后来得到了 Meta 的 PyTorch 的联合创始人 Soumith Chintala 的确认。
当使用 MoE 时,参数总量无法直接计算,因为只有 FFN 层在每个专家之间复制,而其他层可以由所有专家共享。这可能会显著减少 GPT-4 的总参数数量。不过无论如何,总参数数量应该在 1.2-1.7 万亿之间 (8 x 220B)。
关于 GPT-4 回答质量下降和变懒惰的表现可能与 MoE 相关。由于 OpenAI 一直专注于降低推理成本,同时也降低用户每个标记的价格,他们可能正在使用更少的专家或更小的专家来构建 GPT-4。由于每个专家都需要加载到 VRAM 中,即使在每一步中只使用了一些层,也会占用 GPU,因此对硬件的要求非常高。这就是为什么专家的规模或数量的小幅减少可能会对成本产生重大影响,尽管性能也可能受到影响。这种成本削减与更具攻击性的 RLHF (人类反馈的强化学习) 相结合,导致了用户体验和答案质量的下降。
Mistral-8x7B
Mixtral-8x7B 由 Mistral AI 公司开发,一个稀疏混合的 8 专家模型。Mixtral-8x7b 并不是一个 56B 参数的模型,因为如用于自注意力的模块在 8 个专家子网络共享,所以 Mixtral 总共包含 46.7B 个参数。然而,由于其架构,Mixtral-8x7B 可以高效地在消费者硬件上运行。在每一层和每个标记上,只有其中的 2 个子网络被激活,由门控网络决定激活哪些子网络。使用 Mixtral-8x7B 进行推理的速度确实比其他大小相似的模型要快得多,同时在大多数任务中表现更好。
未来方向
MoEs 已在各个领域找到了应用,尤其是在语言翻译和大模型方面。MoE 在人工智能中的潜力是巨大的,正在进行的研究探索着新的领域和应用。
模型互操作性和集成。随着不同机构和公司开发出越来越多的大模型,模型之间的互操作性和集成将变得更加重要。MoEs 技术可能会发展出新的框架和标准,使得不同的模型能够更加无缝地集成和协作,提供更加丰富和多元化的输出。
增强的个性化和适应性。MoEs 的未来发展可能会着重于提高模型的个性化和适应性能力,使模型能够根据用户的具体需求和上下文环境提供更加定制化的输出。这可能涉及到更加先进的用户建模技术,以及更灵活的模型调整和优化方法。
跨模态能力的提升。随着技术的发展,我们可以预见 MoEs 将进一步增强模型的跨模态能力,即模型能够更加自然和高效地处理和整合不同类型的输入(如文本、图像、声音等),并提供跨模态的输出。这将极大地扩展大模型在多媒体内容创作、自然语言理解和人机交互等领域的应用前景。
提高模型的可解释性和透明度。随着人们对大模型输出的准确性和可靠性要求越来越高,未来的 MoEs技术也可能会更加注重提高模型的可解释性和透明度。通过引入新的技术和方法,使用户能够更好地理解模型的决策过程和输出逻辑,增强模型的信任度和接受度。
安全性和隐私保护的加强。在模型输出扩展的过程中,安全性和隐私保护将是一个重要的考虑因素。未来的发展可能会涉及到更加先进的数据保护技术和策略,以确保用户数据的安全和隐私不被泄露或滥用。
结语
混合专家模型代表了人工智能领域的重大飞跃,提供了一种可扩展、高效的构建大型强大人工智能模型的方法。随着这一领域的研究和发展不断演进,混合专家模型在人工智能各个领域的潜在应用和进展是无限的。