OCR材料信息提取工具（附件中含代码和数据）

weixin_407443872026-06-04 11:37

OCR材料信息提取工具

功能说明

本工具可以从图片（JPG、PNG等）和PDF文件中自动识别并提取以下信息：

材料名称
规格/型号
数量
单位

提取的结果会自动保存到Excel文件中。

安装步骤

1. 安装Python依赖

bash 复制代码

pip install -r requirements.txt

注意：首次运行时，PaddleOCR会自动下载中文识别模型，可能需要几分钟时间。

2. 运行脚本

bash 复制代码

python ocr_to_excel.py

输出文件

运行完成后，会在当前目录生成 材料清单.xlsx 文件，包含以下列：

来源文件：原始文件名
材料名称：识别出的材料名称
规格：材料规格/型号
数量：材料数量
单位：计量单位

支持的文件格式

图片格式：JPG, JPEG, PNG, BMP, TIFF
文档格式：PDF

处理的目录

脚本会自动处理以下两个目录中的所有文件：

d://急救包(1)
d://2023年第18批

注意事项

确保图片清晰度足够，文字可辨认
OCR识别准确率受图片质量影响，建议处理后检查结果
首次运行会下载模型文件，请确保网络连接正常
如果识别效果不理想，可能需要调整图片对比度或分辨率

故障排除

如果遇到安装问题

如果PaddleOCR安装失败，可以尝试使用CPU版本：

bash 复制代码

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install paddleocr

如果识别结果不理想

检查原始文件是否清晰
对于扫描PDF，确保分辨率至少300dpi
可以手动调整识别参数（在代码中修改PaddleOCR初始化参数）

上一篇：无人机低空安防巡检AI落地方案｜航拍小目标人员入侵检测、多场景跨领域目标检测数据集与YOLO算法工程实战

下一篇：筛完 1400+ Skills，这 5 个让 Claude Code 效率提升 3 倍

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08Codex 下载安装指南：Windows 和 macOS 官方版下载 09昇腾910B系列芯片完全指南：四款型号对比、服务器选型与大模型部署实战 10几个好用的ip纯净度检测网站