原文链接:mistral.ai/news/mistra...
我们正式推出 Mistral Large ,这是我们迄今为止最新、最先进的语言模型。Mistral Large 已经可以通过 la Plateforme 获取,同时,我们也通过 Azure 这一我们的首个合作伙伴向用户提供。
Mistral Large,我们的全新旗舰模型
Mistral Large 是我们最新研发的前沿文本生成模型,具备顶尖的推理能力。它能够胜任包括文本理解、转换和代码生成在内的复杂多语言推理任务。
在常规的基准测试中,Mistral Large 展现出卓越性能,成为全球第二个(仅次于 GPT-4)可以通过 API 获取的顶尖模型[详见下文基准测试详情]。
图 1: 在 MMLU(大规模多任务语言理解测量)测试中,GPT-4、Mistral Large (预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 与 LLaMA 2 70B 的对比。
Mistral Large 带来了以下新特性和优点:
-
它能流利使用英语、法语、西班牙语、德语和意大利语,并对这些语言的语法和文化背景有深入理解。
-
32K Token 的上下文窗口使其能够从大型文档中精确地回忆信息。
-
准确的指令执行能力 允许开发者自主设计内容审核政策------我们利用这一特性为 le Chat 设定了系统级别的内容审核。
-
天生具备函数调用能力。这一特性,加上在 la Plateforme 实施的输出限制模式,为大规模的应用开发和技术栈现代化提供了可能。
与 Microsoft 合作,通过 Azure 提供我们的模型
Mistral 的使命是推动前沿 AI 技术的普及。因此,我们今天宣布将我们的开放和商业模型引入 Azure。微软对我们模型的信任标志着我们前进的一大步!现在,我们的模型可以通过以下方式获取:
-
La Plateforme:在 Mistral 的欧洲基础设施上安全托管,这一接入点让开发者可以利用我们丰富的模型库来创建应用程序和服务。
-
Azure :Mistral Large 可以通过 Azure AI Studio 和 Azure Machine Learning 获取,提供与我们 API 相同的无缝用户体验。Beta 客户已经显著成功地使用了它。
-
自我部署 :对于最敏感的使用场景,我们的模型可以部署在您的环境中,您可以获取我们的模型权重;阅读关于这种部署方式的成功案例,并联系我们的团队了解更多信息。
Mistral Large 的能力展示
我们将 Mistral Large 与市场上其他顶尖大语言模型在常用基准测试中的性能进行了比较。
推理和知识
Mistral Large 展现出了强大的推理能力。下图展示了预训练模型在标准基准测试中的表现。
图 2: 市场上顶尖大语言模型在广泛认可的常识、推理和知识基准测试中的表现:MMLU、HellaSwag (10-shot)、Wino Grande (5-shot)、Arc Challenge (5-shot)、Arc Challenge (25-shot)、TriviaQA (5-shot) 和 TruthfulQA。
多语言能力
Mistral Large 具有出色的多语言能力,在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中远超 LLaMA 2 70B。
图 3: Mistral Large、Mixtral 8x7B 和 LLaMA 2 70B 在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 测试中的对比。
数学与编程
Mistral Large 在编程和数学任务中展现出顶级性能。下表报告了市场上一些顶尖大语言模型在流行基准测试中的编程和数学性能。
图 4: 市场上领先的大语言模型在流行的编程和数学基准测试中的表现:HumanEval pass@1, MBPP pass@1, Math maj@4, GSM8K maj@8 (8-shot) 和 GSM8K maj@1 (5 shot)。
新推出的 Mistral Small,针对低延迟工作负载进行优化
我们不仅推出了 Mistral Large,还发布了一个针对延迟和成本进行优化的新模型 Mistral Small。Mistral Small 在性能上超过了 Mixtral 8x7B,且具有更低的延迟,是我们开放权重产品和旗舰模型之间的理想选择。
Mistral Small 拥有与 Mistral Large 相同的创新特性,包括 RAG 启用和函数调用。
我们简化了端点服务,提供以下选项:
-
具有竞争力定价的开放权重端点,包括
open-mistral-7B
和open-mixtral-8x7b
。 -
新的优化模型端点,
mistral-small-2402
和mistral-large-2402
。我们将继续维护mistral-medium
,但今天不进行更新。
我们的基准测试为您提供了性能与成本权衡的全面视角。
除了新模型的推出,我们还引入了组织管理多币种定价,并在 la Plateforme 上更新了服务等级。我们还大幅度降低了所有端点的延迟。
JSON 格式和函数调用
JSON 格式模式使语言模型的输出必须为有效的 JSON。这一功能使开发者可以更自然地与我们的模型交互,以结构化的格式提取信息,便于在他们的流程中使用。
函数调用功能允许开发者将 Mistral 端点与他们自己的工具集合进行接口对接,实现与内部代码、API 或数据库的更复杂的交互。您可以在我们的函数调用指南中了解更多详情。
函数调用和 JSON 格式目前仅在 mistral-small 和 mistral-large 模型上可用。我们计划不久将来将这些功能扩展到所有端点,并允许更细粒度的格式定义。
立即体验 Mistral Large 和 Mistral Small
从今天开始,Mistral Large 就可以在 La Plateforme 和 Azure 上使用了。此外,Mistral Large 还通过我们的 beta 版演示工具 le Chat 对外公开。我们一直期待着您的反馈!