多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1

往期相关:

模型架构

模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。

  • 视觉编码器:ViT-H模型(https://huggingface.co/nvidia/C-RADIO)
  • 适配层:一维卷积和归一化,以压缩潜在空间的维度和序列长度(13184个令牌到3201个令牌)
  • 解码器:mBart [1] 10个块
  • 分词器:使用此模型中包含的分词器受CC-BY-4.0许可证的约束
  • 参数数量:< 1B

功能

版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像

权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

相关推荐
maycho1235 小时前
探索锂电池主动均衡仿真:从开关电容到多种电路的奇妙之旅
人工智能
南太湖小蚂蚁5 小时前
通过TRAE和LLM实现电影数据查询和分析
人工智能
双翌视觉5 小时前
机器视觉赋能平板电脑OCA真空全贴合,精度、效率与智能化的三重飞跃
人工智能·机器学习·电脑
CareyWYR5 小时前
AI 把技术门槛踩碎,我们拿什么作为护城河?
人工智能
mgsky15 小时前
【插件推荐】Chrome类浏览器AI分组插件
人工智能·chrome
九河云5 小时前
跨境电商数字化转型:海外仓库存 AI 预警与多平台订单一体化管理实践
大数据·人工智能·数字化转型
HuggingFace5 小时前
Hugging Face 论文页面功能指南
人工智能
羑悻的小杀马特5 小时前
突破算力极限:基于openEuler的容器级AI推理优化实战
人工智能