【AI】使用OCR处理pdf

pdf如果是扫描件,没有办法发送给LLM比如gemini去读取,需要使用OCR处理。

需要:

1. pdf2image 和 poppler

安装方法和路径:

https://pdf2image.readthedocs.io/en/latest/installation.html

poppler也在上个路径中可以找到

安装完成后执行下面脚本:

python 复制代码
import os
from pdf2image import convert_from_path

# --- 1. 配置你的路径 ---

# 你的PDF文件所在的路径
pdf_file_path = r'c:\zbj\script\gemini\1.pdf'

# 图片将被保存到的文件夹
# 脚本会自动创建这个文件夹
output_images_dir = r'c:\zbj\script\gemini\pdf_images'

# !!【非常重要】请将这里修改为你自己电脑上Poppler的'bin'文件夹路径 !!
# 例如: r'C:\poppler\poppler-24.02.0\Library\bin'
poppler_bin_path = r'C:\path\to\your\poppler\Library\bin' # <--- 在这里修改


# --- 2. 执行转换 ---

def convert_pdf_to_images(pdf_path, output_dir, poppler_path):
    """
    将PDF的每一页转换为PNG图片。
    """
    # 检查Poppler路径是否被修改
    if 'C:\\path\\to\\your\\poppler\\Library\\bin' in poppler_path:
        print("错误:请务必在脚本中修改 'poppler_bin_path' 变量,")
        print(f"将其设置为你电脑上Poppler的bin文件夹的实际路径。")
        return

    # 创建输出文件夹(如果不存在)
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
        print(f"已创建输出文件夹: {output_dir}")

    print(f"正在从 {pdf_path} 读取PDF文件...")

    try:
        # 使用convert_from_path进行转换
        # poppler_path参数是必需的
        images = convert_from_path(
            pdf_path=pdf_path,
            output_folder=output_dir,
            poppler_path=poppler_path,
            fmt='png',  # 输出格式为png
            output_file='page_' # 图片文件名前缀
        )
        
        print(f"\n转换成功!")
        print(f"总共 {len(images)} 页已被转换为图片,并保存在以下目录中:")
        print(output_dir)

    except Exception as e:
        print("\n转换过程中发生错误!")
        print("请仔细检查以下几点:")
        print(f"1. Poppler路径是否正确?当前设置为: '{poppler_path}'")
        print("2. 是否下载并解压了Poppler?")
        print("3. Poppler的版本(64位/32位)是否与你的Python解释器匹配?")
        print(f"\n详细错误信息: {e}")


# --- 运行主函数 ---
if __name__ == '__main__':
    convert_pdf_to_images(pdf_file_path, output_images_dir, poppler_bin_path)

1000页的pdf大概需要执行10min,执行完成后每一页pdf都被转换成png图片存在文件夹pdf_images里。

  1. 使用paddle OCR进行OCR识别
    环境安装:
    https://www.paddleocr.ai/main/quick_start.html#1-paddlepaddle
相关推荐
倔强的石头_2 小时前
kingbase备份与恢复实战(二)—— sys_dump库级逻辑备份与恢复(Windows详细步骤)
数据库
jiayou641 天前
KingbaseES 实战:深度解析数据库对象访问权限管理
数据库
李广坤2 天前
MySQL 大表字段变更实践(改名 + 改类型 + 改长度)
数据库
爱可生开源社区3 天前
2026 年,优秀的 DBA 需要具备哪些素质?
数据库·人工智能·dba
随逸1773 天前
《从零搭建NestJS项目》
数据库·typescript
加号34 天前
windows系统下mysql多源数据库同步部署
数据库·windows·mysql
シ風箏4 天前
MySQL【部署 04】Docker部署 MySQL8.0.32 版本(网盘镜像及启动命令分享)
数据库·mysql·docker
李慕婉学姐4 天前
Springboot智慧社区系统设计与开发6n99s526(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
数据库·spring boot·后端
百锦再4 天前
Django实现接口token检测的实现方案
数据库·python·django·sqlite·flask·fastapi·pip
百事牛科技4 天前
保护文档安全:PDF限制功能详解与实操
windows·pdf