OCR材料信息提取工具(附件中含代码和数据)

OCR材料信息提取工具

功能说明

本工具可以从图片(JPG、PNG等)和PDF文件中自动识别并提取以下信息:

  • 材料名称
  • 规格/型号
  • 数量
  • 单位

提取的结果会自动保存到Excel文件中。

安装步骤

1. 安装Python依赖

bash 复制代码
pip install -r requirements.txt

注意:首次运行时,PaddleOCR会自动下载中文识别模型,可能需要几分钟时间。

2. 运行脚本

bash 复制代码
python ocr_to_excel.py

输出文件

运行完成后,会在当前目录生成 材料清单.xlsx 文件,包含以下列:

  • 来源文件:原始文件名
  • 材料名称:识别出的材料名称
  • 规格:材料规格/型号
  • 数量:材料数量
  • 单位:计量单位

支持的文件格式

  • 图片格式:JPG, JPEG, PNG, BMP, TIFF
  • 文档格式:PDF

处理的目录

脚本会自动处理以下两个目录中的所有文件:

  1. d://急救包(1)
  2. d://2023年第18批

注意事项

  1. 确保图片清晰度足够,文字可辨认
  2. OCR识别准确率受图片质量影响,建议处理后检查结果
  3. 首次运行会下载模型文件,请确保网络连接正常
  4. 如果识别效果不理想,可能需要调整图片对比度或分辨率

故障排除

如果遇到安装问题

如果PaddleOCR安装失败,可以尝试使用CPU版本:

bash 复制代码
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install paddleocr

如果识别结果不理想

  1. 检查原始文件是否清晰
  2. 对于扫描PDF,确保分辨率至少300dpi
  3. 可以手动调整识别参数(在代码中修改PaddleOCR初始化参数)
相关推荐
姗姗来迟了几秒前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下42 分钟前
用Pinia管理AI多会话状态
人工智能
用户054324329701 小时前
Next.js接大模型流式SSE实操踩坑
人工智能
Assby1 小时前
从 Function Calling 到 MCP:理解 Agent 工具调用的底层通信机制
人工智能·后端
小星AI2 小时前
Claude Code 从入门到精通,一步到位
人工智能
后端小肥肠2 小时前
Codex + Obsidian 做人生副本视频:输入主题文案,直通剪映草稿
人工智能·aigc·agent
百度Geek说3 小时前
全链路研发智能体 ——从"体感能用"到"实际可用"的工程实践
人工智能
甲维斯4 小时前
500块的豆包,能帮我搞定这个么?!
人工智能
火山引擎开发者社区4 小时前
当 Agent 自己做 SRE:详解 ArkClaw 自动化可观测体系的工程实践
人工智能
Coffeeee6 小时前
两个例子,帮你快速理解什么是Token
人工智能·程序员·ai编程