多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1

往期相关:

模型架构

模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。

  • 视觉编码器:ViT-H模型(https://huggingface.co/nvidia/C-RADIO)
  • 适配层:一维卷积和归一化,以压缩潜在空间的维度和序列长度(13184个令牌到3201个令牌)
  • 解码器:mBart [1] 10个块
  • 分词器:使用此模型中包含的分词器受CC-BY-4.0许可证的约束
  • 参数数量:< 1B

功能

版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像

权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

相关推荐
白日做梦Q12 小时前
深度学习中的正则化技术全景:从Dropout到权重衰减的优化逻辑
人工智能·深度学习
清铎12 小时前
大模型训练_week3_day15_Llama概念_《穷途末路》
前端·javascript·人工智能·深度学习·自然语言处理·easyui
码农三叔12 小时前
(1-2)人形机器人的发展历史、趋势与应用场景:未来趋势与行业需求
人工智能·microsoft·机器人
与光同尘 大道至简12 小时前
ESP32 小智 AI 机器人入门教程从原理到实现(自己云端部署)
人工智能·python·单片机·机器人·github·人机交互·visual studio
OJAC11112 小时前
当DeepSeek V4遇见近屿智能:一场AI进化的叙事正在展开
人工智能·深度学习·机器学习
xiaozhazha_12 小时前
制造业ERP系统选型实战:快鹭云如何用AI+低代码破解库存管理难题
人工智能·低代码·rxjava
囊中之锥.12 小时前
《从零到实战:基于 PyTorch 的手写数字识别完整流程解析》
人工智能·pytorch·python
编码小哥13 小时前
OpenCV背景减法:视频中的运动物体检测
人工智能·opencv·音视频
AI殉道师13 小时前
Vercel 重磅发布 agent-browser:AI Agent 浏览器自动化的新纪元来了
运维·人工智能·自动化