OCR+PDF解析配套前端工具开源详解!

目录

一、项目简介

TextIn为相关领域的前端开发提供了优秀的范本。

目前项目已在Github上开源!

二、性能特色

三、安装使用

四、效果展示


面对日常生活和工作中常见的OCR识别、PDF解析、翻译、校对等场景 ,配套的可视化工具能够极大地提升我们的使用体验和工作效率

通过可视化界面,我们可以直观地看到文本识别、解析和翻译的结果,便捷评估产品效果。

今天来跟大家分享一个非常棒的开源项目------TextIn ParseX-Frontend,帮助我们轻松搭建优秀的前端可视化界面。

通用文档解析-RAG文本解析-PDF转markdown-TextIn

一、项目简介

ParseX-Frontend是一套TextIn开发的可视化工具,它针对OCR或PDF解析结果审核校对、效果测评场景,也适用于翻译软件等一系列需要可视化比对的工具。项目用ES6开发,基于React框架,能够清晰全面地展示解析结果,具有丰富的可视化和交互功能

TextIn为相关领域的前端开发提供了优秀的范本。

目前项目已在Github上开源!

例图

二、性能特色

  • **免费且稳定:**前端组件代码全部开源,ParseX作为TextIn核心产品,前端更新维护稳定,并且已公布导入编辑功能的计划。

  • **强大的渲染能力:**预览渲染主流图片格式和pdf文件,提供缩放和旋转功能;markdown结果渲染,支持各级标题、图片、公式渲染展示。

  • 支持元素提取与位置溯源:各类解析元素提取展示,支持查看表格、公式、图片,和原始 JSON 结果;解析元素文档位置溯源,原文画框标注各元素位置,可以点击画框跳转解析结果,也可以点击解析结果跳转原文画框。

  • **目录还原:**各层级目录树还原展示,支持点击跳转相应章节。

  • **灵活的参数配置:**接口调用选项参数,支持配置不同参数组合,获取相应解析结果。

  • **便捷的复制导出功能:**支持复制和导出markdown文件;复制解析后的表格和图片,可以直接粘贴到Excel表格中。

三、安装使用

安装依赖

环境要求:

  1. node 版本 >= 18.20.4

  2. 强烈建议使用 yarn 包管理器,项目仓库包含 yarn.lock,指定了依赖版本

拉取项目:

git clone https://github.com/intsig-textin/parsex-frontend.git

使用 npm 或 yarn 安装:

  1. yarn install
  2. npm install

启动项目

  1. yarn start
  2. npm run start
    浏览器访问http://localhost:10007

脚本命令

项目结构

简要描述项目文件结构,以帮助贡献者和用户理解项目的组织方式。

  1. │├── src/ # 源代码
  2. │ ├── assets/ # 静态资源
  3. │ ├── components/ # 全局通用组件
  4. │ ├── layouts/ # 页面框架组件
  5. │ ├── modules/ # store
  6. │ ├── pages/ # 页面组件
  7. │ ├── service/ # 接口服务
  8. │ ├── utils/ # 工具函数
  9. │ └── app.ts # 入口文件
  10. ├── public/ # 静态资源
  11. ├── config/ # 配置
  12. │ ├── routes # 路由
  13. │ └── config.* # 其他umi配置
  14. ├── .eslintrc.js # ESLint 配置
  15. ├── tsconfig.json # TypeScript 配置
  16. ├── package.json # 项目配置
  17. └── README.md # 项目说明文件

四、效果展示

效果图1

效果图2

效果图3

ParseX-Frontend 作为一款可视化工具,具备丰富的交互功能。原文定位溯源,一键复制文字、表格、图片,灵活的参数配置,不仅能帮助用户快速比对,评估产品效果,提高工作效率,也降低了技术门槛,非开发者用户也能轻松上手。

更多细节功能,感兴趣的可以到项目地址查看:

项目地址https://github.com/intsig-textin/parsex-frontend

相关推荐
慧都小妮子4 分钟前
Spire.PDF for .NET【页面设置】演示:打开 PDF 时自动显示书签或缩略图
java·pdf·.net
m51278 分钟前
LinuxC语言
java·服务器·前端
糖豆豆今天也要努力鸭38 分钟前
torch.__version__的torch版本和conda list的torch版本不一致
linux·pytorch·python·深度学习·conda·torch
何大春1 小时前
【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读
论文阅读·人工智能·python·深度学习·论文笔记·原型模式
Myli_ing1 小时前
HTML的自动定义倒计时,这个配色存一下
前端·javascript·html
dr李四维1 小时前
iOS构建版本以及Hbuilder打iOS的ipa包全流程
前端·笔记·ios·产品运营·产品经理·xcode
Suyuoa1 小时前
附录2-pytorch yolov5目标检测
python·深度学习·yolo
雯0609~2 小时前
网页F12:缓存的使用(设值、取值、删除)
前端·缓存
℘团子এ2 小时前
vue3中如何上传文件到腾讯云的桶(cosbrowser)
前端·javascript·腾讯云
学习前端的小z2 小时前
【前端】深入理解 JavaScript 逻辑运算符的优先级与短路求值机制
开发语言·前端·javascript