英伟达发布 Llama Nemotron Nano 4B:专为边缘 AI 和科研任务优化的高效开源推理模型

英伟达推出了 Llama Nem)otron Nano 4B,这是一款专为在科学任务、编程、符号运算、函数调用和指令执行方面提供强大性能与效率而设计的开源推理模型,其紧凑程度足以支持边缘部署。该模型仅包含 40 亿参数,却在内部基准测试中实现了比其他多达 80 亿参数的同类开源模型更高的准确率,并且推理吞吐量高出 50%。

该模型被定位为在资源受限环境中部署基于语言的人工智能代理的实用基础。通过专注于推理效率,Llama Nemotron Nano 4B 满足了对轻量级模型日益增长的需求,这些模型能够在传统云端环境之外支持混合推理和指令执行任务。

模型架构与训练栈

Nemotron Nano 4B 以 Llama 3.1 架构为基础,与英伟达此前的 "Minitron" 系列一脉相承。其架构采用密集型、仅解码器的变换器(transformer)设计。该模型针对推理密集型工作负载的性能进行了优化,同时保持了参数量的轻量化。

模型的训练后处理栈包括在数学、编程、推理任务和函数调用等精选数据集上进行的多阶段监督式微调。除了传统的监督学习外,Nemotron Nano 4B 还通过奖励感知偏好优化(Reward-aware Preference Optimization, RPO)方法进行了强化学习优化,旨在提升模型在基于聊天和指令执行环境中的实用性。

这种指令调优与奖励建模相结合的方式有助于使模型的输出更贴近用户意图,特别是在多轮推理场景中。这种训练方法反映了英伟达在将小型模型与传统上需要大幅增加参数量的实用任务对齐方面的重视。

性能基准测试

尽管其体积小巧,但 Nemotron Nano 4B 在单轮和多轮推理任务中均展现出强劲的性能。据英伟达介绍,与参数量在 80 亿范围内的同类开源模型相比,它的推理吞吐量高出 50%。该模型支持高达 128,000 个标记的上下文窗口,这对于涉及长文档、嵌套函数调用或多跳推理链的任务尤其有用。

尽管英伟达尚未在 Hugging Face 文档中披露完整的基准测试表格,但据报道,该模型在数学、代码生成和函数调用精度等基准测试中均优于其他开源替代方案。其吞吐量优势表明,对于目标为具有中等复杂度工作负载的高效推理管道的开发者而言,它可作为一种可行的默认选择。

专为边缘部署而优化

Nemotron Nano 4B 的核心差异化优势之一是其对边缘部署的关注。该模型已在英伟达 Jetson 平台和英伟达 RTX GPU 上进行了专门测试和优化,从而能够实现在低功耗嵌入式设备上的实时推理能力,包括机器人系统、自主边缘代理或本地开发工作站。

对于关注隐私和部署控制的企业和研究团队而言,在本地运行先进的推理模型而不依赖云端推理 API 的能力,既能节省成本,又能提供更大的灵活性。

许可与访问方式

该模型依据英伟达开源模型许可协议发布,允许商业使用。它可通过 Hugging Face(网址为 huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-4B-v1.1) 获取,所有相关的模型权重、配置文件和分词器组件均公开可访问。这种许可结构与英伟达在支持其开源模型周边开发者生态系统方面的更广泛战略相一致。

结语

Nemotron Nano 4B 体现了英伟达在为更广泛的开发受众群体提供可扩展、实用的人工智能模型方面的持续投入,尤其是那些针对边缘或成本敏感型部署场景的受众群体。尽管超大型模型领域仍在不断取得快速进展,但像 Nemotron Nano 4B 这样的紧凑高效模型提供了平衡,使得在几乎不牺牲性能的情况下实现部署灵活性成为可能。

相关推荐
策知道1 分钟前
从“抗旱保苗”到“修渠引水”:读懂五年财政政策的变奏曲
大数据·数据库·人工智能·搜索引擎·政务
洞见新研社9 分钟前
从实验室走向真实世界,2025年具身智能的产业突破与挑战
人工智能
XC1314890826713 分钟前
法律行业获客,如何用科技手段突破案源瓶颈的实操方法
大数据·人工智能·科技
Dev7z17 分钟前
轨道交通车站客流YOLO格式检测数据集
人工智能·yolo
haiyu_y20 分钟前
Day 53 对抗生成网络 (GAN) 实战
人工智能·深度学习·生成对抗网络
natide27 分钟前
表示/嵌入差异-7-间隔/边际对齐(Alignment Margin)
人工智能·深度学习·算法·机器学习·自然语言处理·知识图谱
90后小陈老师28 分钟前
AI使用手册 | 提示词工程
人工智能
栀秋66642 分钟前
从零开始调用大模型:使用 OpenAI SDK 实现歌词生成,手把手实战指南
前端·llm·openai
ZStack开发者社区1 小时前
替代VMware VCF | 详解ZStack Cloud开放架构与异构整合能力
架构
童话名剑1 小时前
三个经典卷积网络 + 1×1卷积(吴恩达深度学习笔记)
深度学习·神经网络·cnn·alexnet·lenet-5·vgg·1×1卷积