【PaddleOCR】OCR常见关键信息抽取数据集,包含FUNSD、XFUND、WildReceipt等整理,持续更新中......

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907
💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

【PaddleOCR】OCR常见关键信息抽取数据集,包含FUNSD、XFUND、WildReceipt等整理,持续更新中......

在关键信息抽取领域,数据集作为模型训练和评估的核心资源,发挥着至关重要的作用。为了便于大家更好地了解和使用这些数据集,我整理了以下几种常见的关键信息抽取数据集。欢迎大家在评论区补充更多数据集信息,共同完善这份资源清单。

一、FUNSD数据集

数据简介

FUNSD数据集是一个用于表单理解任务的高质量数据集,主要包含199张真实的、完全标注的扫描版图片。这些图片涵盖了多种类型,如市场报告、广告、学术报告等。数据集分为149张训练集图片和50张测试集图片,适用于多种文档视觉问答(DocVQA)任务,例如字段级实体分类和字段级实体连接等。

在标注方面,FUNSD数据集提供了详细的标注框信息,用于区分不同类型的信息区域。具体来说:

  • 橙色区域 表示header,通常包含表单的标题或头部信息。
  • 淡蓝色区域 表示question,用于标识表单中的问题或需要填写的字段。
  • 绿色区域 表示answer,对应问题的答案或填写的内容。
  • 粉红色区域 表示other,涵盖其他辅助信息或不符合前述类别的内容。

这些标注信息不仅丰富了数据集的语义内容,还为模型训练提供了明确的监督信号,有助于提升模型在复杂表单理解任务中的表现。

二、XFUND数据集

数据简介

XFUND是一个多语种表单理解基准数据集,包含7种语言(中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语)的表单数据,且所有数据均经过人工标注,以键-值对的形式呈现。每个语种的数据集包含199张表单图片,分为149张训练集图片和50张测试集图片。

XFUND数据集的多语种特性使其成为跨语言文档理解研究的理想选择。通过涵盖多种语言的表单,研究人员可以更好地探索和开发适用于不同语言环境的关键信息抽取模型。此外,键-值对的标注方式为模型提供了清晰的语义结构,有助于提升模型在多语言场景下的信息抽取能力。

三、WildReceipt数据集

数据简介

WildReceipt数据集是一个专注于英文发票的关键信息抽取数据集,包含26个类别(包括Ignore类别)。数据集共标注了约50000个文本框,其中训练集包含1267张图片,测试集包含472张图片。

WildReceipt数据集的挑战性在于其图像来源于真实场景,很多图片是非正面拍摄的,并且可能存在折叠、扭曲等情况。这些特性使得数据集更加贴近实际应用场景,能够有效评估模型在复杂真实环境下的表现。此外,数据集提供了详细的标注信息,帮助模型学习不同类型文本框的特征和语义关系。

在标注中,IgnoreOthers类别的文本未进行可视化展示,主要聚焦于关键信息类别的抽取任务。

总结

以上三个数据集各具特色,覆盖了从单语种到多语种、从简单表单到复杂真实场景的多种关键信息抽取场景。它们为研究人员提供了丰富的实验素材和评估基准,推动了文档智能分析技术的发展。

如果你对某个特定数据集感兴趣,或者在使用过程中遇到了问题,欢迎在评论区交流讨论。如果你还知道其他相关数据集,也请不吝分享,让我们共同完善这份资源清单!

相关推荐
DX_水位流量监测16 分钟前
大坝安全监测之渗流渗压位移监测设备技术解析
大数据·运维·服务器·网络·人工智能·安全
昵称已被吞噬~‘(*@﹏@*)’~17 分钟前
【RL+空战】学习记录03:基于JSBSim构造简易空空导弹模型,并结合python接口调用测试
开发语言·人工智能·python·学习·深度强化学习·jsbsim·空战
Yeats_Liao26 分钟前
MindSpore开发之路(二十四):MindSpore Hub:快速复用预训练模型
人工智能·分布式·神经网络·机器学习·个人开发
老周聊架构36 分钟前
基于YOLOv8-OBB旋转目标检测数据集与模型训练
人工智能·yolo·目标检测
AKAMAI1 小时前
基准测试:Akamai云上的NVIDIA RTX Pro 6000 Blackwell
人工智能·云计算·测试
寂寞恋上夜1 小时前
异步任务怎么设计:轮询/WebSocket/回调(附PRD写法)
网络·人工智能·websocket·网络协议·markdown转xmind·deepseek思维导图
Deepoch1 小时前
赋能未来:Deepoc具身模型开发板如何成为机器人创新的“基石”
人工智能·机器人·开发板·具身模型·deepoc
格林威1 小时前
传送带上运动模糊图像复原:提升动态成像清晰度的 6 个核心方案,附 OpenCV+Halcon 实战代码!
人工智能·opencv·机器学习·计算机视觉·ai·halcon·工业相机
且去填词1 小时前
DeepSeek API 深度解析:从流式输出、Function Calling 到构建拥有“手脚”的 AI 应用
人工智能·python·语言模型·llm·agent·deepseek