文档 OCR 识别优化为异步思路逻辑

野生绿箭侠2024-01-27 10:35

文档 OCR 识别优化

同步处理（原逻辑）

当前系统识别文档为同步处理，已调整过 python 服务部分参数，但一份40M左右文档识别仍需要几十秒
- 文档转为图片集合
- for 循环中一直调用 ocr 识别

异步处理

nginx 增加 requestId header 参数
后端获取到 requestId 参数，保存 threadLocal，键值数据为对应文档 id，requestId 需要在消息体中一直传递
后端获取请求数据（生产者），将文档转为图片集合，并标识页码索引（属于文档第几页），存放 mq 队列，python多实例服务（消费者）绑定队列，消费图片信息，OCR 识别以后发送 mq 至队列
后端（消费者）接收 python 识别完成的消息进行后续处理
- 获取 requestId 对应的文档 id 绑定文档
- 拼接识别数据（requestId + 当前 ocr 识别文档页码）
- 疑问点：不知道接收到的识别数据属于当前文档什么部分，无法正确拼接数据，只能通过当前 ocr 识别的文档页码来处理
- 具体实现逻辑待编码

上一篇：【云原生】初识Docker，安装以及了解操作命令

下一篇：Hadoop与Spark横向比较【大数据扫盲】

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09几个好用的ip纯净度检测网站 10Codex 下载安装指南：Windows 和 macOS 官方版下载