多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1

往期相关:

模型架构

模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。

  • 视觉编码器:ViT-H模型(https://huggingface.co/nvidia/C-RADIO)
  • 适配层:一维卷积和归一化,以压缩潜在空间的维度和序列长度(13184个令牌到3201个令牌)
  • 解码器:mBart [1] 10个块
  • 分词器:使用此模型中包含的分词器受CC-BY-4.0许可证的约束
  • 参数数量:< 1B

功能

版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像

权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

相关推荐
aigcapi4 小时前
RAG 系统的黑盒测试:从算法对齐视角解析 GEO 优化的技术指标体系
大数据·人工智能·算法
上进小菜猪4 小时前
基于深度学习的河道垃圾检测系统设计(YOLOv8)
人工智能
上天夭5 小时前
模型训练篇
人工智能·深度学习·机器学习
小徐Chao努力5 小时前
【Langchain4j-Java AI开发】09-Agent智能体工作流
java·开发语言·人工智能
Blossom.1185 小时前
AI编译器实战:从零手写算子融合与自动调度系统
人工智能·python·深度学习·机器学习·flask·transformer·tornado
Coder_Boy_5 小时前
SpringAI与LangChain4j的智能应用-(理论篇2)
人工智能·spring boot·langchain·springai
却道天凉_好个秋5 小时前
OpenCV(四十八):图像查找
人工智能·opencv·计算机视觉
Coder_Boy_5 小时前
SpringAI与LangChain4j的智能应用-(理论篇3)
java·人工智能·spring boot·langchain
GetcharZp5 小时前
工地“火眼金睛”!手把手带你用 YOLO11 实现安全帽佩戴检测
人工智能·计算机视觉
Codebee5 小时前
Ooder A2UI架构白皮书
人工智能·响应式编程