多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1

往期相关:

模型架构

模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。

  • 视觉编码器:ViT-H模型(https://huggingface.co/nvidia/C-RADIO)
  • 适配层:一维卷积和归一化,以压缩潜在空间的维度和序列长度(13184个令牌到3201个令牌)
  • 解码器:mBart [1] 10个块
  • 分词器:使用此模型中包含的分词器受CC-BY-4.0许可证的约束
  • 参数数量:< 1B

功能

版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像

权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

相关推荐
Soari2 分钟前
终结 Vibe Coding(Harness Engineering)!深度拆解 ralph:以交付所有 PRD 为生命周期的自主 AI Agent 闭环
自动化测试·人工智能·软件工程·aiagent·ralph·harnesseng·prd驱动
yezannnnnn3 分钟前
ToAgent:下一个被颠覆的不是某个行业,是"App"这个概念本身
人工智能
Marvel__Dead6 分钟前
微调 Gemma 4 识别腾讯天御全系列验证码【解决方案-一个模型识别 滑块|文字点选|图标点选|空间点选】
人工智能·爬虫·python·验证码识别·ai 大模型
Agent手记6 分钟前
成品发货全流程自动化,落地实操与错发漏发规避方案 | 2026企业级Agent端到端落地指南
运维·人工智能·ai·自动化
元让_vincent9 分钟前
论文Review SLAM II-NVM | RA-L 2025 | 面向室内双面墙问题的法向量辅助建图方法
人工智能·机器人·自动驾驶·法向量·激光slam·室内
一个帅气昵称啊10 分钟前
.Net基于NetCoreKevin框架 AI 与 Hangfire 集成:实现AI智能自动任务调度
人工智能·.net·hangfire
byte轻骑兵10 分钟前
【LE Audio】CAP精讲[6]: 控制中枢操盘指南,Commander协同全流程拆解
人工智能·音视频·le audio·低功耗音频
1892280486114 分钟前
NV236美光MT29F32T08GWLBHD6-24TES:B
大数据·服务器·人工智能·科技·缓存
龙侠九重天16 分钟前
JetBrains AI 助手集成 Rider、IDEA 等 IDE 的 AI 辅助功能
ide·人工智能·大模型·intellij-idea·agent·jetbrains·智能体
YoungHong199217 分钟前
Pi Coding Agent : AI时代的“VSCode“
ide·人工智能·gpt·claude·claudecode