多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1

余俊晖2025-12-07 13:22

往期相关：

模型架构

模型整体架构与mBART类似，遵循vision-encoder-decoder架构，这点和之前字节开源的dolphin架构类似。

视觉编码器：ViT-H模型（https://huggingface.co/nvidia/C-RADIO）
适配层：一维卷积和归一化，以压缩潜在空间的维度和序列长度（13184个令牌到3201个令牌）
解码器：mBart $1$ 10个块
分词器：使用此模型中包含的分词器受CC-BY-4.0许可证的约束
参数数量：< 1B

功能

版式分析识别的标签：标题、节、图例、索引、脚注、列表、表格、参考文献、图像

权重（已支持vllm推理）：https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

上一篇：《Code 节点实战：用 JavaScript 接管自动化系统的核心逻辑（企业级实战）》

下一篇：APISIX ＞ ai-proxy 插件

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚