Databricks 开源 DBRX:一款功能强大的新型企业级语言模型

Databricks 公司发布了 DBRX,这是一款性能优异的大语言模型,在各项测试中均超越了现有的开源模型。DBRX 的目标是为企业提供高质量、可定制的 AI 工具,帮助企业更好地利用生成式 AI 技术。

DBRX 的一大亮点是其出色的性能在语言理解、编程、数学和逻辑等任务上,DBRX 的表现均优于 LLaMA2-70B、Mixtral 和 Grok-1 等模型。根据 Databricks 的开源基准测试 Gauntlet,DBRX 在 30 多项测试中均名列前茅,这表明开源模型的质量正在不断提升。

DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 等方面的表现均优于现有的开源模型。

值得注意的是,DBRX 在大多数测试中甚至超越了 GPT-3.5。这对于企业来说意义重大,因为越来越多的企业开始使用开源模型替代专有模型,以获得更高的效率和控制权。Databricks 在其 12,000 多个客户中观察到了这一趋势,许多客户通过定制开源模型来满足特定需求,从而获得了更高的质量和速度。

DBRX 的另一个关键特性是其混合专家 (MoE) 架构,该架构基于 MegaBlocks 研究和开源项目构建。MoE 架构能够在保持较小的活跃参数数量(360 亿个)的情况下,实现更快的词元(Token)生成速度,而模型的总参数数量为 1320 亿个。这意味着 MoE 架构能够在速度和性能之间取得平衡,以更快的速度训练更大的模型。

DBRX Instruct 的性能可与 Gemini 1.0 Pro 和 Mistral Medium 相媲美。在 Inflection Corrected MTBench、MMLU、HellaSwag 和 HumanEval 等测试中,DBRX Instruct 的得分高于 Gemini 1.0 Pro,而 Gemini 1.0 Pro 在 GSM8k 测试中表现更强。

Databricks 使用高达 32K 词元上下文窗口训练 DBRX,并完全在其平台上构建 DBRX,使用了 Unity Catalog 进行数据治理、Apache Spark™ 和 Lilac AI 进行数据处理和清理,以及 Mosaic AI 训练服务进行大规模模型训练和微调等工具。

Databricks 将 DBRX 设计为易于定制的模型,使企业能够提高其 AI 应用的质量。从今天开始,企业可以在 Databricks 平台上使用 DBRX,在 RAG 系统中利用其长上下文能力,并根据其私有数据构建自定义 DBRX 模型。该模型可通过 Databricks 的 GitHub 存储库 和 **Hugging Face 平台(DBRX Base、DBRX Instruct)**访问。您还可以在 Hugging Face Space 平台上试用 DBRX Instruct 模型。

DBRX 的基础模型 (DBRX Base) 和微调模型 (DBRX Instruct) 的权重均可在 Hugging Face 平台上获得,并采用开放许可证。从今天开始,Databricks 客户可以通过 API 使用 DBRX,并使用 Databricks 提供的工具和技术,从头开始预训练自己的 DBRX 级模型,或者在我们提供的检查点之上继续训练模型。

参考资料

DBRX Base: https://huggingface.co/databricks/dbrx-base

DBRX Instruct: https://huggingface.co/databricks/dbrx-instruct?ref=maginative.com

DBRX Github: https://www.github.com/databricks/dbrx

DBRX Blog: https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

相关推荐
肖遥Janic7 分钟前
Stable Diffusion绘画 | 插件-Deforum:动态视频生成(上篇)
人工智能·ai·ai作画·stable diffusion
robinfang201915 分钟前
AI在医学领域:Arges框架在溃疡性结肠炎上的应用
人工智能
给自己一个 smile19 分钟前
如何高效使用Prompt与AI大模型对话
人工智能·ai·prompt
魔力之心1 小时前
人工智能与机器学习原理精解【30】
人工智能·机器学习
Hiweir ·1 小时前
NLP任务之文本分类(情感分析)
人工智能·自然语言处理·分类·huggingface
百里香酚兰1 小时前
【AI学习笔记】基于Unity+DeepSeek开发的一些BUG记录&解决方案
人工智能·学习·unity·大模型·deepseek
sp_fyf_20242 小时前
[大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠
人工智能·深度学习·神经网络·搜索引擎·语言模型·自然语言处理
肖遥Janic3 小时前
Stable Diffusion绘画 | 插件-Deforum:商业LOGO广告视频
人工智能·ai·ai作画·stable diffusion
杨荧3 小时前
【JAVA开源】基于Vue和SpringBoot的水果购物网站
java·开发语言·vue.js·spring boot·spring cloud·开源
我就是全世界4 小时前
一起了解AI的发展历程和AGI的未来展望
人工智能·agi