轻量级冠军:NVIDIA 发布具有领先准确率的小语言模型

Mistral-NeMo-Minitron 8B 是最近发布的 Mistral NeMo 12B 模型的微型版本,具有高精度和高计算效率,可在 GPU 加速数据中心、云和工作站上运行模型。

生成式 AI 开发者通常需要在模型尺寸和准确性之间做出权衡。然而,NVIDIA 发布的一款新语言模型却做到了二者兼得。这款模型虽然尺寸小,却能够提供领先的准确率。

Mistral-NeMo-Minitron 8B 是 Mistral AI 与 NVIDIA 上个月发布的 Mistral NeMo 12B 开放模型的微型版本,其尺寸小到足以在 NVIDIA RTX 驱动的工作站上运行,但却在针对 AI 驱动的聊天机器人、虚拟助手、内容生成器和教育工具的多项基准测试中取得了出色的成绩。Minitron 模型是由 NVIDIA 使用 NVIDIA NeMo (一个用于开发自定义生成式 AI 的端到端平台)所蒸馏而成。

NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 表示:"我们把两种不同的 AI 优化方法相结合,将 Mistral NeMo 的 120 亿个参数剪枝到 80 亿,并通过蒸馏来提高准确性。这使 Mistral-NeMo-Minitron 8B 可以以更低的计算成本提供与原始模型相当的精度。"

不同于大语言模型,小语言模型可以在工作站和笔记本电脑上实时运行。这使资源有限的企业不仅能够更容易地将生成式 AI 功能部署到其基础设施中,同时还能优化成本、提高运营效率和降低能耗。在边缘设备上本地运行语言模型时,由于数据无需从边缘设备传输到服务器,因此还具有安全优势。

开发者现在可以开始使用 Mistral-NeMo-Minitron 8B,其已被打包为具有标准应用程序编程接口(API)的 NVIDIA NIM 微服务,开发者也可以从Hugging Face 下载此模型。能在几分钟内部署至任何 GPU 加速系统的可下载的 NVIDIA NIM 也即将上线。

80 亿参数语言模型的最新成果

相比同等规模的语言模型,Mistral-NeMo-Minitron 8B 在九项常用语言模型性能基准测试中名列前茅。这些基准测试涵盖了各种任务,包括语言理解、常识推理、数学推理、总结、编码以及生成真实答案的能力等。

该模型以 NVIDIA NIM 微服务的形式打包,针对低延迟和高吞吐量进行了优化,低延迟意味着用户响应速度更快,而高吞吐量意味着生产中的计算效率更高。

在某些情况下,开发者可能想要在智能手机或机器人等嵌入式设备上运行一个更小的模型。为此,他们可以先下载 80 亿参数模型,然后使用 NVIDIA AI Foundry 对其进行进一步的剪枝和蒸馏提炼,针对企业特定应用定制更小、更优化的神经网络。

AI Foundry 平台和服务为开发者提供全栈解决方案,用于创建打包为 NIM 微服务的定制基础模型。它包括流行的基础模型、NVIDIA NeMo 平台和 NVIDIA DGX Cloud 上的专用容量。使用 NVIDIA AI Foundry 的开发者还可以访问 NVIDIA AI Enterprise,这是一个为生产部署提供安全性、稳定性和支持的软件平台。

由于原始 Mistral-NeMo-Minitron 8B 模型以最先进的准确性为基准,因此使用 AI Foundry 缩小后的版本仍能为用户提供高度的准确性,只需要极少的训练数据和计算基础设施。

充分利用剪枝和蒸馏的优点

为了使较小的模型实现较高的准确率,团队采用了一种结合了剪枝和蒸馏的过程。剪枝通过删除对准确率贡献最小的模型权重来缩小神经网络的大小。在蒸馏过程中,团队在一个小的数据集上重新训练了这个剪枝后的模型,以显著提高准确率(准确率在剪枝过程中有所下降)。

最终得到的是一个尺寸更小但效率更高的模型,其预测准确率不亚于原来的大模型。

这种技术意味着只需要原始数据集的一小部分,来训练相关模型系列中的每个附加模型,与从头开始训练较小的模型相比,在剪枝和蒸馏较大模型时最多可将计算成本降为原本的四十分之一。

相关推荐
IT_陈寒9 小时前
React的useEffect把我坑惨了,这些闭包陷阱真要命
前端·人工智能·后端
财经资讯数据_灵砚智能9 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月1日
大数据·人工智能·python·信息可视化·自然语言处理
Flandern111110 小时前
# 学习AI Agent中了解到的几个概念
人工智能·学习
2601_9583205710 小时前
【零基础新手入门 】OpenClaw 2.6.6 对接阿里云百炼配置教程(包含安装包)
人工智能·阿里云·云计算·open claw·小龙虾·open claw安装·open claw一键安装
java1234_小锋10 小时前
Spring AI 2.0 开发Java Agent智能体 - Spring AI项目调用本地Ollama模型
java·人工智能·spring·spring ai2.0
深海鱼在掘金10 小时前
深入浅出 LangChain —— 第六章:记忆与状态管理
人工智能·langchain·agent
qq_2837200510 小时前
Python+LangChain 调用大模型全方案深度实战:原生调用、统一接口、流式输出、异步、自定义模型全解析
人工智能·langchain·agent·rag
葫三生10 小时前
三生原理文章被AtomGit‌开源社区收录的意义探析?
人工智能·深度学习·神经网络·算法·搜索引擎·开源·transformer
冬奇Lab10 小时前
一天一个开源项目(第90篇):cmux - 为 AI Agent 时代设计的原生终端复用器
人工智能·开源·资讯
Godspeed Zhao10 小时前
具身智能中的传感器技术41——事件相机1
人工智能·科技·机器学习·具身智能·事件相机