NVIDIA 发布 Nemotron 3 Nano Omni 模型

如今的 AI 智能体系统需要分别调用视觉、语音和语言模型 ------ 而在模型间传递数据的过程中,不仅耗时,还会丢失上下文信息。

今日发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放式多模态模型,它将上述功能集成至一个系统中,使智能体能够对视频、音频、图像和文本进行高级推理,从而提供更快、更智能的响应。这一出色的模型为企业和开发者提供了一条生产路径,帮助其构建更高效且更准确的多模态 AI 智能体,并赋予他们完全的部署灵活性与控制权。

Nemotron 3 Nano Omni 凭借其较高的准确性和成本优势,为开放式多模态模型设定了新的效率边界,并在复杂文档智能以及视频和音频理解领域的++六项榜单++中名列前茅。

目前已采用 Nemotron 3 Nano Omni 的 AI 和软件公司包括 ++Aible++ 、++Applied Scientific Intelligence (ASI)++ 、++Eka Care++ 、Foxconn、++H Company++ 、Palantir 和 ++Pyler++ ,同时戴尔科技、Docusign、Infosys、++K-Dense++ 、Lila、Oracle 和 ++Zefr++ 正在评估该模型。

H Company 首席执行官 Gautier Cloix 表示:"要构建实用的智能体,不能花几秒钟等待模型来解析屏幕。我们的智能体基于 Nemotron 3 Nano Omni 进行构建,可以快速解析全高清屏幕录制内容 ------ 而这在过去是无法实现的。这不仅仅是速度上的提升,也改变了我们的智能体实时感知和与数字环境交互的方式。

Nemotron 3 Nano Omni 助力打造更快、更精简的多模态智能体

试想一个客户支持 AI 智能体在处理屏幕录制内容的同时,还需要分析上传的通话音频并检查数据日志;或是一个财务 AI 智能体需要负责解析多个 PDF、电子表格、图表和语音笔记。如今,大多数智能体系统都通过独立的视觉、语音和语言模型来完成这些任务。

这种方法会因为重复推理而增加延迟,导致不同模态之间的上下文碎片化,并随时间推移增加成本和误差性。

通过在其 30B-A3B 的++混合专家模型 (MoE)++ 架构中结合视觉和音频编码器,Nemotron 3 Nano Omni 无需独立的感知模型,从而大规模提高推理效率。它将这种效率与强大的多模态感知准确性相结合,使 AI 系统在保持相同交互性能的情况下,实现比其他开放式全模态模型高 9 倍的吞吐量。因此,其能够在不牺牲响应速度或质量的前提下降低成本并提高可扩展性。

在智能体系统中,Nemotron 3 Nano Omni 可以与专有云模型或其他 NVIDIA Nemotron 开放模型,例如用于高频执行的 Nemotron 3 Super 或用于复杂规划的 Nemotron 3 Ultra,同时也可结合其他供应商的专有模型协同工作,来支持计算机操作、文档智能和音频-视频推理等智能体工作流中的子智能体。

计算机操作智能体 **------**Nemotron 3 Nano Omni 为智能体提供感知回路,帮助其在图形用户界面导航、对屏幕内容进行推理,并理解随时间变化的用户界面状态。H Company 最新推出的由 Nemotron 3 Nano Omni 驱动的计算机操作智能体,采用 1920x1080 像素的原生输入分辨率,以实现高保真视觉推理。在对 OSWorld 基准测试的初步评估中,这种集成在导航复杂图形界面上实现了重大飞跃,并利用了 Nemotron 3 Nano Omni 处理超高分辨率图像的能力。

文档智能 **------**解析文档、图表、表格、屏幕截图和混合媒体输入,使智能体能够连贯地推理视觉结构和文本内容。这对企业分析和合规性工作流至关重要。

音频和视频理解 **------**针对客户服务、研究和监测工作流,Nemotron 3 Nano Omni 能够保持音频-视频上下文,将所说、所显示和所记录的内容绑定到单个推理流中,而非毫无关联的摘要。

开放且可定制,随处可部署

Nemotron 3 Nano Omni 发布时附带开放权重、数据集和训练技术,赋予组织对模型定制和部署方式的完全透明度与控制力。

开发者可以使用诸如 ++NVIDIA NeMo++ 等工具来定制、评估和优化特定领域的用例。由于 Nemotron 系列模型是开放的,组织可以将其部署在符合监管、主权或数据本地化要求的环境中。

过去一年中,Nemotron 3 系列 ------ 包括 Nano、Super 和 Ultra 模型 ------ 下载量已超 5,000 万次。Omni 将该系列的能力扩展到多模态和智能体领域。

该模型已在 ++Hugging Face++ 、++OpenRouter++ 和 ++NVIDIA 官网++ 以 NVIDIA NIM 的形式上线,并通过广泛的 ++NVIDIA 云合作伙伴++、推理平台和云服务提供商生态系统提供支持。

其开放、轻量级的架构可支持从 ++NVIDIA Jetson++ 硬件、++NVIDIA DGX Spark++ 等本地系统到数据中心和云环境的一致性部署。

访问 NVIDIA 技术博客,获取适用于 Nemotron 3 Nano Omni 用例的++教程、实操和部署指南++。订阅 ++NVIDIA 新闻++ 、++加入 NVIDIA 开发者社区++,及时了解关于代理式 AI 和 ++NVIDIA Nemotron++ 等最新动态。

相关推荐
星幻元宇VR7 小时前
VR单人地震体验平台助力防灾减灾教育
科技·学习·安全·vr·虚拟现实
星幻元宇VR11 小时前
VR自行车骑行模拟系统|让交通安全教育“骑”进现实
科技·学习·安全·vr
星幻元宇VR1 天前
VR航空航天科普设备【VR时空直升机】
科技·学习·安全·生活·vr
VBsemi-专注于MOSFET研发定制1 天前
面向高端VR眼镜高效能供电与动态负载管理的功率MOSFET选型策略与器件适配手册
vr
ykjhr_3d1 天前
vr电力安全培训系统有哪些
安全·vr·华锐视点
星幻元宇VR1 天前
VR交通安全行走平台助力文明交通建设
科技·学习·安全·vr·虚拟现实
星幻元宇VR2 天前
VR航空航天科普设备助力航天知识普及
人工智能·科技·学习·安全·vr·虚拟现实
Axis tech2 天前
如何使用VARJO在VR中查看BLENDER内容分步指南
vr·blender
熊猫钓鱼>_>2 天前
AR游戏的“轻”与“深”:当智能体接管眼镜,游戏逻辑正在发生什么变化?
人工智能·游戏·ai·ar·vr·game·智能体