英伟达发布 Llama Nemotron Nano 4B:专为边缘 AI 和科研任务优化的高效开源推理模型

英伟达推出了 Llama Nem)otron Nano 4B,这是一款专为在科学任务、编程、符号运算、函数调用和指令执行方面提供强大性能与效率而设计的开源推理模型,其紧凑程度足以支持边缘部署。该模型仅包含 40 亿参数,却在内部基准测试中实现了比其他多达 80 亿参数的同类开源模型更高的准确率,并且推理吞吐量高出 50%。

该模型被定位为在资源受限环境中部署基于语言的人工智能代理的实用基础。通过专注于推理效率,Llama Nemotron Nano 4B 满足了对轻量级模型日益增长的需求,这些模型能够在传统云端环境之外支持混合推理和指令执行任务。

模型架构与训练栈

Nemotron Nano 4B 以 Llama 3.1 架构为基础,与英伟达此前的 "Minitron" 系列一脉相承。其架构采用密集型、仅解码器的变换器(transformer)设计。该模型针对推理密集型工作负载的性能进行了优化,同时保持了参数量的轻量化。

模型的训练后处理栈包括在数学、编程、推理任务和函数调用等精选数据集上进行的多阶段监督式微调。除了传统的监督学习外,Nemotron Nano 4B 还通过奖励感知偏好优化(Reward-aware Preference Optimization, RPO)方法进行了强化学习优化,旨在提升模型在基于聊天和指令执行环境中的实用性。

这种指令调优与奖励建模相结合的方式有助于使模型的输出更贴近用户意图,特别是在多轮推理场景中。这种训练方法反映了英伟达在将小型模型与传统上需要大幅增加参数量的实用任务对齐方面的重视。

性能基准测试

尽管其体积小巧,但 Nemotron Nano 4B 在单轮和多轮推理任务中均展现出强劲的性能。据英伟达介绍,与参数量在 80 亿范围内的同类开源模型相比,它的推理吞吐量高出 50%。该模型支持高达 128,000 个标记的上下文窗口,这对于涉及长文档、嵌套函数调用或多跳推理链的任务尤其有用。

尽管英伟达尚未在 Hugging Face 文档中披露完整的基准测试表格,但据报道,该模型在数学、代码生成和函数调用精度等基准测试中均优于其他开源替代方案。其吞吐量优势表明,对于目标为具有中等复杂度工作负载的高效推理管道的开发者而言,它可作为一种可行的默认选择。

专为边缘部署而优化

Nemotron Nano 4B 的核心差异化优势之一是其对边缘部署的关注。该模型已在英伟达 Jetson 平台和英伟达 RTX GPU 上进行了专门测试和优化,从而能够实现在低功耗嵌入式设备上的实时推理能力,包括机器人系统、自主边缘代理或本地开发工作站。

对于关注隐私和部署控制的企业和研究团队而言,在本地运行先进的推理模型而不依赖云端推理 API 的能力,既能节省成本,又能提供更大的灵活性。

许可与访问方式

该模型依据英伟达开源模型许可协议发布,允许商业使用。它可通过 Hugging Face(网址为 huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-4B-v1.1) 获取,所有相关的模型权重、配置文件和分词器组件均公开可访问。这种许可结构与英伟达在支持其开源模型周边开发者生态系统方面的更广泛战略相一致。

结语

Nemotron Nano 4B 体现了英伟达在为更广泛的开发受众群体提供可扩展、实用的人工智能模型方面的持续投入,尤其是那些针对边缘或成本敏感型部署场景的受众群体。尽管超大型模型领域仍在不断取得快速进展,但像 Nemotron Nano 4B 这样的紧凑高效模型提供了平衡,使得在几乎不牺牲性能的情况下实现部署灵活性成为可能。

相关推荐
光影少年3 分钟前
前端ai开发需要学习哪些东西?
前端·人工智能·学习
Jerry952706286 分钟前
1.无服务器架构入门
云原生·架构·serverless·无服务器架构
AI大模型9 分钟前
【连载】零基础跟我学做AI Agent(第3课:用LangChain开发一个做题Agent)
langchain·llm·agent
灵途科技20 分钟前
灵途科技当选中国电子商会智能传感器专委会副理事长单位
大数据·人工智能·科技
非著名架构师20 分钟前
“低空经济”的隐形护航者:AI驱动的秒级风场探测如何保障无人机物流与城市空管安全?
人工智能·数据分析·疾风气象大模型·高精度天气预报数据·galeweather.cn·高精度气象
恋上钢琴的虫27 分钟前
【大模型实战篇】利用TensorRT LLM部署及推理大模型实战(bloom560m、chatglm-6b等大模型)
llm
洁洁!35 分钟前
openEuler在WSL2中的GPU加速AI训练实战指南
人工智能·数据挖掘·数据分析
桂花饼37 分钟前
字节Seedream-4.5架构揭秘:当AI开始拥有“版式推理”能力,CISAN与DLE引擎如何重构多图生成?
人工智能·aigc·idea·sora2 api·gemini 3 pro·claude opus 4.5·doubao-seedream
哥布林学者42 分钟前
吴恩达深度学习课程四:计算机视觉 第一周:卷积基础知识 课后习题和代码代码实践
深度学习·ai
whaosoft-1431 小时前
51c视觉~合集55
人工智能