Databricks 开源 DBRX：一款功能强大的新型企业级语言模型

Databricks 公司发布了 DBRX，这是一款性能优异的大语言模型，在各项测试中均超越了现有的开源模型。DBRX 的目标是为企业提供高质量、可定制的 AI 工具，帮助企业更好地利用生成式 AI 技术。

DBRX 的一大亮点是其出色的性能 。在语言理解、编程、数学和逻辑等任务上，DBRX 的表现均优于 LLaMA2-70B、Mixtral 和 Grok-1 等模型。根据 Databricks 的开源基准测试 Gauntlet，DBRX 在 30 多项测试中均名列前茅，这表明开源模型的质量正在不断提升。

DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 等方面的表现均优于现有的开源模型。

值得注意的是，DBRX 在大多数测试中甚至超越了 GPT-3.5。这对于企业来说意义重大，因为越来越多的企业开始使用开源模型替代专有模型，以获得更高的效率和控制权。Databricks 在其 12,000 多个客户中观察到了这一趋势，许多客户通过定制开源模型来满足特定需求，从而获得了更高的质量和速度。

DBRX 的另一个关键特性是其混合专家 (MoE) 架构，该架构基于 MegaBlocks 研究和开源项目构建。MoE 架构能够在保持较小的活跃参数数量（360 亿个）的情况下，实现更快的词元（Token）生成速度，而模型的总参数数量为 1320 亿个。这意味着 MoE 架构能够在速度和性能之间取得平衡，以更快的速度训练更大的模型。

DBRX Instruct 的性能可与 Gemini 1.0 Pro 和 Mistral Medium 相媲美。在 Inflection Corrected MTBench、MMLU、HellaSwag 和 HumanEval 等测试中，DBRX Instruct 的得分高于 Gemini 1.0 Pro，而 Gemini 1.0 Pro 在 GSM8k 测试中表现更强。

Databricks 使用高达 32K 词元上下文窗口训练 DBRX，并完全在其平台上构建 DBRX，使用了 Unity Catalog 进行数据治理、Apache Spark™ 和 Lilac AI 进行数据处理和清理，以及 Mosaic AI 训练服务进行大规模模型训练和微调等工具。

Databricks 将 DBRX 设计为易于定制的模型，使企业能够提高其 AI 应用的质量。从今天开始，企业可以在 Databricks 平台上使用 DBRX，在 RAG 系统中利用其长上下文能力，并根据其私有数据构建自定义 DBRX 模型。该模型可通过 Databricks 的 GitHub 存储库 和 **Hugging Face 平台（DBRX Base、DBRX Instruct）**访问。您还可以在 Hugging Face Space 平台上试用 DBRX Instruct 模型。

DBRX 的基础模型 (DBRX Base) 和微调模型 (DBRX Instruct) 的权重均可在 Hugging Face 平台上获得，并采用开放许可证。从今天开始，Databricks 客户可以通过 API 使用 DBRX，并使用 Databricks 提供的工具和技术，从头开始预训练自己的 DBRX 级模型，或者在我们提供的检查点之上继续训练模型。

参考资料

DBRX Base: https://huggingface.co/databricks/dbrx-base

DBRX Instruct: https://huggingface.co/databricks/dbrx-instruct?ref=maginative.com

DBRX Github: https://www.github.com/databricks/dbrx

DBRX Blog: https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm