多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1

往期相关:

模型架构

模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。

  • 视觉编码器:ViT-H模型(https://huggingface.co/nvidia/C-RADIO)
  • 适配层:一维卷积和归一化,以压缩潜在空间的维度和序列长度(13184个令牌到3201个令牌)
  • 解码器:mBart [1] 10个块
  • 分词器:使用此模型中包含的分词器受CC-BY-4.0许可证的约束
  • 参数数量:< 1B

功能

版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像

权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

相关推荐
冬奇Lab几秒前
一天一个开源项目(第81篇):YC 总裁亲自写代码,把自己的大脑开源了
人工智能·开源·资讯
冬奇Lab3 分钟前
SubAgent 原理深度解析:AI 系统如何通过委托实现专业化分工
人工智能·agent·claude
ZhengEnCi16 分钟前
01c-循环神经网络RNN详解
人工智能·深度学习
仙女修炼史26 分钟前
CNN的捷径学习Shortcut Learning in Deep Neural Networks
人工智能·学习·cnn
企业架构师老王29 分钟前
数据安全优先:企业级智能体私有化部署完整方案与最佳实践
人工智能·ai
北漂Zachary31 分钟前
AI训练硬件选型:GPU算力梯队全解析
人工智能·gpu算力
CS创新实验室35 分钟前
CS实验室行业报告:机器人领域就业分析报告
大数据·人工智能·机器人
才兄说36 分钟前
机器人二次开发机器狗巡检?绕行率低于10%
人工智能
QYR-分析39 分钟前
机器人物体检测/追踪传感器行业解析及市场机遇
人工智能·机器人
Pushkin.43 分钟前
数仓 AI Coding 应用实战:基于 AI 的数仓效能提升
人工智能·数仓ai提效