多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1

往期相关:

模型架构

模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。

  • 视觉编码器:ViT-H模型(https://huggingface.co/nvidia/C-RADIO)
  • 适配层:一维卷积和归一化,以压缩潜在空间的维度和序列长度(13184个令牌到3201个令牌)
  • 解码器:mBart 1 10个块
  • 分词器:使用此模型中包含的分词器受CC-BY-4.0许可证的约束
  • 参数数量:< 1B

功能

版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像

权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

相关推荐
皮皮学姐分享-ppx16 分钟前
政府绿色采购数据库(2015-2024.3)
大数据·网络·数据库·人工智能·制造
GIS数据转换器19 分钟前
基于3D GIS的监控视频精准标定平台
人工智能·物联网·3d·音视频·无人机·知识图谱
专注VB编程开发20年1 小时前
AI 生成C# WinForm 窗体 = 目前就是垃圾
开发语言·人工智能·c#
深小乐1 小时前
Claude Fable5 尝鲜,效果挺不错
人工智能
Nayxxu1 小时前
Gemini + RAG 企业知识库教程:从文档切片到答案生成
运维·人工智能
冬奇Lab1 小时前
真正的 AI-Native Workflow 是什么?——四个判断测试
人工智能·agent
冬奇Lab1 小时前
每日一个开源项目(第128篇):Agent Skills - 给 AI 编程 Agent 装上工程纪律
人工智能·开源·资讯
Deepoch2 小时前
Deepoc VLA开发板:采摘机器人的环境鲁棒作业与不确定性应对
人工智能·机器人·采摘机器人·deepoc
云栖梦泽在2 小时前
AI安全专项:AI人脸识别的安全风险与防护
人工智能·安全