【AI】使用OCR处理pdf

pdf如果是扫描件,没有办法发送给LLM比如gemini去读取,需要使用OCR处理。

需要:

1. pdf2image 和 poppler

安装方法和路径:

https://pdf2image.readthedocs.io/en/latest/installation.html

poppler也在上个路径中可以找到

安装完成后执行下面脚本:

python 复制代码
import os
from pdf2image import convert_from_path

# --- 1. 配置你的路径 ---

# 你的PDF文件所在的路径
pdf_file_path = r'c:\zbj\script\gemini\1.pdf'

# 图片将被保存到的文件夹
# 脚本会自动创建这个文件夹
output_images_dir = r'c:\zbj\script\gemini\pdf_images'

# !!【非常重要】请将这里修改为你自己电脑上Poppler的'bin'文件夹路径 !!
# 例如: r'C:\poppler\poppler-24.02.0\Library\bin'
poppler_bin_path = r'C:\path\to\your\poppler\Library\bin' # <--- 在这里修改


# --- 2. 执行转换 ---

def convert_pdf_to_images(pdf_path, output_dir, poppler_path):
    """
    将PDF的每一页转换为PNG图片。
    """
    # 检查Poppler路径是否被修改
    if 'C:\\path\\to\\your\\poppler\\Library\\bin' in poppler_path:
        print("错误:请务必在脚本中修改 'poppler_bin_path' 变量,")
        print(f"将其设置为你电脑上Poppler的bin文件夹的实际路径。")
        return

    # 创建输出文件夹(如果不存在)
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
        print(f"已创建输出文件夹: {output_dir}")

    print(f"正在从 {pdf_path} 读取PDF文件...")

    try:
        # 使用convert_from_path进行转换
        # poppler_path参数是必需的
        images = convert_from_path(
            pdf_path=pdf_path,
            output_folder=output_dir,
            poppler_path=poppler_path,
            fmt='png',  # 输出格式为png
            output_file='page_' # 图片文件名前缀
        )
        
        print(f"\n转换成功!")
        print(f"总共 {len(images)} 页已被转换为图片,并保存在以下目录中:")
        print(output_dir)

    except Exception as e:
        print("\n转换过程中发生错误!")
        print("请仔细检查以下几点:")
        print(f"1. Poppler路径是否正确?当前设置为: '{poppler_path}'")
        print("2. 是否下载并解压了Poppler?")
        print("3. Poppler的版本(64位/32位)是否与你的Python解释器匹配?")
        print(f"\n详细错误信息: {e}")


# --- 运行主函数 ---
if __name__ == '__main__':
    convert_pdf_to_images(pdf_file_path, output_images_dir, poppler_bin_path)

1000页的pdf大概需要执行10min,执行完成后每一页pdf都被转换成png图片存在文件夹pdf_images里。

  1. 使用paddle OCR进行OCR识别
    环境安装:
    https://www.paddleocr.ai/main/quick_start.html#1-paddlepaddle
相关推荐
就是ping不通的蛋黄派1 小时前
MySQL数据库 管理与维护
数据库·mysql
初听于你1 小时前
SQL常用语句解析:从查询到操作
数据库·sql
码二哥2 小时前
借助豆包将vllm推理deepseek-ocr改成web服务访问
ocr·fastapi·vllm·豆包·deepseek-ocr
还是码字踏实2 小时前
基于BM25的金融文档智能解析:基于OCR和紧凑型视觉语言模型的多阶段字段提取技术深度解读
金融·ocr·图像预处理·bm25页面预检索·紧凑型视觉语言模型vlm·多阶段金融文档解析框架
旗讯数字2 小时前
旗讯 OCR 技术解析:金融行业手写表格识别方案与系统集成实践
大数据·金融·ocr
weixin_446260852 小时前
Milvus:高效能的云原生向量数据库
数据库·云原生·milvus
q***2512 小时前
Spring Boot 中使用 @Transactional 注解配置事务管理
数据库·spring boot·sql
z***3353 小时前
SQL Server 数据库管理工具的安装以及使用
数据库
Cyclo-9 小时前
PDFJS 在React中的引入 使用组件打开文件流PDF
前端·react.js·pdf