【PaddleOCR】OCR常见关键信息抽取数据集,包含FUNSD、XFUND、WildReceipt等整理,持续更新中......

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907
💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

【PaddleOCR】OCR常见关键信息抽取数据集,包含FUNSD、XFUND、WildReceipt等整理,持续更新中......

在关键信息抽取领域,数据集作为模型训练和评估的核心资源,发挥着至关重要的作用。为了便于大家更好地了解和使用这些数据集,我整理了以下几种常见的关键信息抽取数据集。欢迎大家在评论区补充更多数据集信息,共同完善这份资源清单。

一、FUNSD数据集

数据简介

FUNSD数据集是一个用于表单理解任务的高质量数据集,主要包含199张真实的、完全标注的扫描版图片。这些图片涵盖了多种类型,如市场报告、广告、学术报告等。数据集分为149张训练集图片和50张测试集图片,适用于多种文档视觉问答(DocVQA)任务,例如字段级实体分类和字段级实体连接等。

在标注方面,FUNSD数据集提供了详细的标注框信息,用于区分不同类型的信息区域。具体来说:

  • 橙色区域 表示header,通常包含表单的标题或头部信息。
  • 淡蓝色区域 表示question,用于标识表单中的问题或需要填写的字段。
  • 绿色区域 表示answer,对应问题的答案或填写的内容。
  • 粉红色区域 表示other,涵盖其他辅助信息或不符合前述类别的内容。

这些标注信息不仅丰富了数据集的语义内容,还为模型训练提供了明确的监督信号,有助于提升模型在复杂表单理解任务中的表现。

二、XFUND数据集

数据简介

XFUND是一个多语种表单理解基准数据集,包含7种语言(中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语)的表单数据,且所有数据均经过人工标注,以键-值对的形式呈现。每个语种的数据集包含199张表单图片,分为149张训练集图片和50张测试集图片。

XFUND数据集的多语种特性使其成为跨语言文档理解研究的理想选择。通过涵盖多种语言的表单,研究人员可以更好地探索和开发适用于不同语言环境的关键信息抽取模型。此外,键-值对的标注方式为模型提供了清晰的语义结构,有助于提升模型在多语言场景下的信息抽取能力。

三、WildReceipt数据集

数据简介

WildReceipt数据集是一个专注于英文发票的关键信息抽取数据集,包含26个类别(包括Ignore类别)。数据集共标注了约50000个文本框,其中训练集包含1267张图片,测试集包含472张图片。

WildReceipt数据集的挑战性在于其图像来源于真实场景,很多图片是非正面拍摄的,并且可能存在折叠、扭曲等情况。这些特性使得数据集更加贴近实际应用场景,能够有效评估模型在复杂真实环境下的表现。此外,数据集提供了详细的标注信息,帮助模型学习不同类型文本框的特征和语义关系。

在标注中,IgnoreOthers类别的文本未进行可视化展示,主要聚焦于关键信息类别的抽取任务。

总结

以上三个数据集各具特色,覆盖了从单语种到多语种、从简单表单到复杂真实场景的多种关键信息抽取场景。它们为研究人员提供了丰富的实验素材和评估基准,推动了文档智能分析技术的发展。

如果你对某个特定数据集感兴趣,或者在使用过程中遇到了问题,欢迎在评论区交流讨论。如果你还知道其他相关数据集,也请不吝分享,让我们共同完善这份资源清单!

相关推荐
jiushun_suanli18 小时前
AI生成音频:技术概述与实践指南
人工智能·经验分享·音视频
五度易链-区域产业数字化管理平台18 小时前
五度易链产业大脑技术拆解:AI + 大数据 + 云计算如何构建产业链数字基础设施?
大数据·人工智能·云计算
形宙数字18 小时前
【形宙数字】MANGOLD INTERACT 行为观察分析系统-行为观察统计分析-人类行为学研究-行为逻辑
信息可视化·数据分析·行为观察分析系统·行为观察统计分析·人类行为学研究·行为逻辑·形宙数字
m0_6501082418 小时前
【论文精读】SV3D:基于视频扩散模型的单图多视角合成与3D生成
人工智能·论文精读·视频扩散模型·单图 3d 生成
力江18 小时前
攻克维吾尔语识别的技术实践(多语言智能识别系统)
人工智能·python·自然语言处理·语音识别·unicode·维吾尔语
糖葫芦君19 小时前
基于树结构突破大模型自身能力
人工智能·深度学习·大模型
诗句藏于尽头19 小时前
MediaPipe+OpenCV的python实现交互式贪吃蛇小游戏
人工智能·python·opencv
汽车仪器仪表相关领域19 小时前
汽车排放检测的 “模块化核心”:HORIBA OBS-ONE GS Unit 气体分析单元技术解析
大数据·人工智能·功能测试·车载系统·汽车·安全性测试·汽车检测
恒点虚拟仿真19 小时前
“AI+XR”赋能智慧研创中心:告别AI焦虑,重塑教师未来
人工智能·xr·虚拟仿真·虚拟仿真教学·xr研创中心·数字教师·未来教师
2501_9389312519 小时前
解构AI营销获客工具的四大智能中枢与价值逻辑
人工智能·机器学习·自动驾驶