【AI】使用OCR处理pdf

pdf如果是扫描件,没有办法发送给LLM比如gemini去读取,需要使用OCR处理。

需要:

1. pdf2image 和 poppler

安装方法和路径:

https://pdf2image.readthedocs.io/en/latest/installation.html

poppler也在上个路径中可以找到

安装完成后执行下面脚本:

python 复制代码
import os
from pdf2image import convert_from_path

# --- 1. 配置你的路径 ---

# 你的PDF文件所在的路径
pdf_file_path = r'c:\zbj\script\gemini\1.pdf'

# 图片将被保存到的文件夹
# 脚本会自动创建这个文件夹
output_images_dir = r'c:\zbj\script\gemini\pdf_images'

# !!【非常重要】请将这里修改为你自己电脑上Poppler的'bin'文件夹路径 !!
# 例如: r'C:\poppler\poppler-24.02.0\Library\bin'
poppler_bin_path = r'C:\path\to\your\poppler\Library\bin' # <--- 在这里修改


# --- 2. 执行转换 ---

def convert_pdf_to_images(pdf_path, output_dir, poppler_path):
    """
    将PDF的每一页转换为PNG图片。
    """
    # 检查Poppler路径是否被修改
    if 'C:\\path\\to\\your\\poppler\\Library\\bin' in poppler_path:
        print("错误:请务必在脚本中修改 'poppler_bin_path' 变量,")
        print(f"将其设置为你电脑上Poppler的bin文件夹的实际路径。")
        return

    # 创建输出文件夹(如果不存在)
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
        print(f"已创建输出文件夹: {output_dir}")

    print(f"正在从 {pdf_path} 读取PDF文件...")

    try:
        # 使用convert_from_path进行转换
        # poppler_path参数是必需的
        images = convert_from_path(
            pdf_path=pdf_path,
            output_folder=output_dir,
            poppler_path=poppler_path,
            fmt='png',  # 输出格式为png
            output_file='page_' # 图片文件名前缀
        )
        
        print(f"\n转换成功!")
        print(f"总共 {len(images)} 页已被转换为图片,并保存在以下目录中:")
        print(output_dir)

    except Exception as e:
        print("\n转换过程中发生错误!")
        print("请仔细检查以下几点:")
        print(f"1. Poppler路径是否正确?当前设置为: '{poppler_path}'")
        print("2. 是否下载并解压了Poppler?")
        print("3. Poppler的版本(64位/32位)是否与你的Python解释器匹配?")
        print(f"\n详细错误信息: {e}")


# --- 运行主函数 ---
if __name__ == '__main__':
    convert_pdf_to_images(pdf_file_path, output_images_dir, poppler_bin_path)

1000页的pdf大概需要执行10min,执行完成后每一页pdf都被转换成png图片存在文件夹pdf_images里。

  1. 使用paddle OCR进行OCR识别
    环境安装:
    https://www.paddleocr.ai/main/quick_start.html#1-paddlepaddle
相关推荐
MoonBit月兔3 小时前
海外开发者实践分享:用 MoonBit 开发 SQLC 插件(其二)
开发语言·javascript·数据库·redis·mysql·moonbit
scan7243 小时前
python mcp see
开发语言·数据库·python
Coder_Boy_3 小时前
前端和后端软件系统联调经典问题汇总(二)
开发语言·数据库·python
AI人工智能+3 小时前
承兑汇票识别技术;融合OCR、深度学习和NLP的多模态智能系统,可实现秒级高精度识别
深度学习·ocr·承兑汇票识别
程序员根根3 小时前
MySQL 核心知识全解析:从语法到实战(DDL/DML/DQL + 核心特性)
数据库·mysql
P-surp4 小时前
mysql 数据库 批量库 迁移、恢复
数据库·mysql
繁星星繁4 小时前
【Mysql】数据库的操作
数据库·mysql·oracle
dvlinker4 小时前
动态代理技术实战测评—高效解锁Zillow房价历史
android·java·数据库
API开发4 小时前
体验“不存数据”的数据库:Trino 容器化部署与极速入门
数据库
我科绝伦(Huanhuan Zhou)4 小时前
Oracle索引技术:理论与实操全解析
数据库·oracle