【OCR】数据集合集!

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

RapidOCR

  • 更新时间:2024-12-24

  • 访问地址: GitHub

  • 描述:

    基于 ONNXRuntime、OpenVINO 和 PaddlePaddle 的超棒 OCR 多编程语言工具包。多平台、多语言 OCR 工具,它拥有无与伦比的速度、广泛的支持和完全的开放性。这款卓越的软件完全免费,以促进快速离线部署而闻名。其效率的核心是 ONNXRuntime 推理引擎,提供 4 到 5 倍于 PaddlePaddle 引擎的速度,同时确保没有内存泄漏。

  • 数据集网址:

    https://github.com/RapidAI/RapidOCR

2

PaddleOCR

  • 更新时间:2024-12-24

  • 访问地址: GitHub

  • 描述:

    基于PaddlePaddle的超棒多语言OCR工具包(实用的超轻量级OCR系统,支持80多种语言识别,提供数据注释和合成工具,支持服务器、移动、嵌入式和物联网设备之间的训练和部署)。

  • 数据集网址:

    https://github.com/PaddlePaddle/PaddleOCR

3

surya

  • 更新时间:2024-12-21

  • 访问地址: GitHub

  • 描述:

    Surya 是一个文档 OCR 工具包,支持 90 多种语言的 OCR,与云服务相比具有优势,可以进行任何语言的行级文本检测,布局分析(表格、图像、标题等检测),阅读顺序检测,表格识别(检测行/列)等,它适用于一系列文档。

  • 数据集网址:

    https://github.com/VikParuchuri/surya

4

PaddleOCR-json

  • 更新时间:2024-10-15

  • 访问地址: GitHub

  • 描述:

    这是一个基于PaddleOCR v2.6及v2.8 cpp_infer的离线图片OCR文字识别程序,可以快速让你的程序拥有OCR能力。它可以作为一个子进程被上层程序调用,也可以作为一个单独的进程通过TCP调用。本项目提供了Python等语言的API,你可以无视技术细节,通过两行代码使用它。

    本项目旨在提供一个封装好的OCR引擎组件,使得没有C++编程基础的开发者也可以用其他语言来简单地调用OCR,享受到更快的运行效率、更方便的资源和部署手段。

  • 数据集网址:

    https://github.com/hiroi-sora/PaddleOCR-json

5

OpenOCR

  • 更新时间:2024-12-18

  • 访问地址: GitHub

  • 描述:

    OpenOCR:通用的OCR系统,准确率高,支持24种在真实大规模数据集上从头训练的场景文本识别方法,并将持续添加最新方法。

  • 数据集网址:

    https://github.com/Topdu/OpenOCR

6

ID-DocumentRecognition-Linux

  • 更新时间:2024-10-15

  • 访问地址: GitHub

  • 描述:

    MiniAiLive 智能 ID OCR,实现可靠的身份验证从文档验证到数据输入,我们的 MiniAiLive OCR 解决方案可以帮助改变您的身份验证流程。

    使用我们经过验证的 AI 优先方法,快速安全地捕获、提取和验证各种身份证、护照、驾驶执照和其他文件中的数据。我们的技术设计无缝集成,可以作为完全捆绑的身份证件验证解决方案集成,也可以通过开发人员友好的移动或服务器 SDK 作为单独的模块集成。

  • 数据集网址:

    https://github.com/MiniAiLive/ID-DocumentRecognition-Linux

7

doctr

  • 更新时间:2024-12-21

  • 访问地址: GitHub

  • 描述:

    docTR(文档文本识别)------一个由深度学习支持的 OCR 相关任务的无缝、高性能且可访问的库。

  • 数据集网址:

    https://github.com/mindee/doctr

8

Text-Grab

  • 更新时间:2024-12-22

  • 访问地址: GitHub

  • 描述:

    这是适用于 Windows 10/11 的最小光学字符识别 (OCR) 实用程序,可以复制所有可见文本。

    文本经常被困在图像、视频或应用程序的某些部分中,无法被选中。Text Grab 截取屏幕截图,将该图像传递给 OCR 引擎,然后将文本放入剪贴板以供在任何地方使用。OCR 由Windows API在本地完成。这使得 Text Grab 基本上没有 UI,也不需要持续运行的后台进程。处理文本不仅仅是从图像中复制文本,因此 Text Grab 有一系列不同的模式,使处理文本变得快速而简单。

  • 数据集网址:

    https://github.com/TheJoeFin/Text-Grab

9

tesseract.js

  • 更新时间:2024-12-24

  • 访问地址: GitHub

  • 描述:

    适用于 100 多种语言的纯 Javascript OCR。

    Tesseract.js 旨在将Tesseract OCR 引擎(一个单独的项目)引入浏览器和 Node.js,并通过包装Tesseract 的WebAssembly 端口来工作。该项目不会修改 Tesseract 的核心功能。最值得注意的是,Tesseract.js 不支持 PDF 文件,也不会修改 Tesseract 识别模型来提高准确性。

  • 数据集网址:

    https://github.com/naptha/tesseract.js

10

Easydict

  • 更新时间:2024-12-24

  • 访问地址: GitHub

  • 描述:

    一个简洁优雅的搜索翻译macOS App。开箱即用,支持离线OCR识别,支持有道搜索,苹果系统搜索,苹果系统翻译,OpenAI,Gemini,DeepL,Google,Bing,腾讯,百度,阿里,小牛,彩云和火山翻译。简洁优雅的 macOS 词典和翻译器应用程序,用于查找单词和翻译文本。

  • 数据集网址:

    https://github.com/tisfeng/Easydict

相关推荐
豆豆13 分钟前
day32 学习笔记
图像处理·笔记·opencv·学习·计算机视觉
白熊18832 分钟前
【计算机视觉】CV实战项目 - 基于YOLOv5的人脸检测与关键点定位系统深度解析
人工智能·yolo·计算机视觉
nenchoumi311934 分钟前
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation
论文阅读·人工智能·笔记·学习·vln
后端小肥肠44 分钟前
文案号搞钱潜规则:日入四位数的Coze工作流我跑通了
人工智能·coze
LCHub低代码社区1 小时前
钧瓷产业原始创新的许昌共识:技术破壁·产业再造·生态重构(一)
大数据·人工智能·维格云·ai智能体·ai自动化·大禹智库·钧瓷码
-曾牛1 小时前
Spring AI 快速入门:从环境搭建到核心组件集成
java·人工智能·spring·ai·大模型·spring ai·开发环境搭建
阿川20151 小时前
云智融合普惠大模型AI,政务服务重构数智化路径
人工智能·华为云·政务·deepseek
自由鬼1 小时前
开源AI开发工具:OpenAI Codex CLI
人工智能·ai·开源·软件构建·开源软件·个人开发
生信碱移1 小时前
大语言模型时代,单细胞注释也需要集思广益(mLLMCelltype)
人工智能·经验分享·深度学习·语言模型·自然语言处理·数据挖掘·数据可视化
88号技师1 小时前
【1区SCI】Fusion entropy融合熵,多尺度,复合多尺度、时移多尺度、层次 + 故障识别、诊断-matlab代码
开发语言·机器学习·matlab·时序分析·故障诊断·信息熵·特征提取