OCR材料信息提取工具(附件中含代码和数据)

OCR材料信息提取工具

功能说明

本工具可以从图片(JPG、PNG等)和PDF文件中自动识别并提取以下信息:

  • 材料名称
  • 规格/型号
  • 数量
  • 单位

提取的结果会自动保存到Excel文件中。

安装步骤

1. 安装Python依赖

bash 复制代码
pip install -r requirements.txt

注意:首次运行时,PaddleOCR会自动下载中文识别模型,可能需要几分钟时间。

2. 运行脚本

bash 复制代码
python ocr_to_excel.py

输出文件

运行完成后,会在当前目录生成 材料清单.xlsx 文件,包含以下列:

  • 来源文件:原始文件名
  • 材料名称:识别出的材料名称
  • 规格:材料规格/型号
  • 数量:材料数量
  • 单位:计量单位

支持的文件格式

  • 图片格式:JPG, JPEG, PNG, BMP, TIFF
  • 文档格式:PDF

处理的目录

脚本会自动处理以下两个目录中的所有文件:

  1. d://急救包(1)
  2. d://2023年第18批

注意事项

  1. 确保图片清晰度足够,文字可辨认
  2. OCR识别准确率受图片质量影响,建议处理后检查结果
  3. 首次运行会下载模型文件,请确保网络连接正常
  4. 如果识别效果不理想,可能需要调整图片对比度或分辨率

故障排除

如果遇到安装问题

如果PaddleOCR安装失败,可以尝试使用CPU版本:

bash 复制代码
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install paddleocr

如果识别结果不理想

  1. 检查原始文件是否清晰
  2. 对于扫描PDF,确保分辨率至少300dpi
  3. 可以手动调整识别参数(在代码中修改PaddleOCR初始化参数)
相关推荐
YOLO数据集集合1 小时前
无人机低空安防巡检AI落地方案|航拍小目标人员入侵检测、多场景跨领域目标检测数据集与YOLO算法工程实战
人工智能·yolo·目标检测·无人机
搞科研的小刘选手1 小时前
【重庆大学主办】第三届智能感知与模式识别国际学术会议(IPPR 2026)
物联网·机器学习·计算机视觉·机器人·人机交互·感知·传感
拓研C1 小时前
EM-Core-Agent:AI Agent 具身认知核心系统——架构白皮书 V1.0
人工智能·架构·车载系统·机器人·github
码农阿强1 小时前
PixVerse 全系列视频生成模型技术架构详解 + Python 基于 StartAPI.top 接口实战调用
python·ai·架构·音视频·ai编程
katttt_1 小时前
从被动投流到被动获客,GEO 重构中小企业盈利模式
人工智能
MartinYeung51 小时前
[论文学习]大型语言模型的安全性、安全与隐私问题综述:核心挑战、攻击防禦与未来方向分析
人工智能·学习·安全·语言模型
Ricky05531 小时前
基于对比学习的卫星影像目标检测领域适应方法(2024年美国研究)
人工智能·学习·目标检测
reikocao1 小时前
continue配置本地大模型
人工智能
阿里云云原生1 小时前
AI Agent 规模化生产“黑箱”难拆?阿里云发布全链路可观测方案,实现 Agent 行为透视
人工智能·阿里云·云计算