pdf如果是扫描件,没有办法发送给LLM比如gemini去读取,需要使用OCR处理。
需要:
1. pdf2image 和 poppler
安装方法和路径:
https://pdf2image.readthedocs.io/en/latest/installation.html
poppler也在上个路径中可以找到
安装完成后执行下面脚本:
python
import os
from pdf2image import convert_from_path
# --- 1. 配置你的路径 ---
# 你的PDF文件所在的路径
pdf_file_path = r'c:\zbj\script\gemini\1.pdf'
# 图片将被保存到的文件夹
# 脚本会自动创建这个文件夹
output_images_dir = r'c:\zbj\script\gemini\pdf_images'
# !!【非常重要】请将这里修改为你自己电脑上Poppler的'bin'文件夹路径 !!
# 例如: r'C:\poppler\poppler-24.02.0\Library\bin'
poppler_bin_path = r'C:\path\to\your\poppler\Library\bin' # <--- 在这里修改
# --- 2. 执行转换 ---
def convert_pdf_to_images(pdf_path, output_dir, poppler_path):
"""
将PDF的每一页转换为PNG图片。
"""
# 检查Poppler路径是否被修改
if 'C:\\path\\to\\your\\poppler\\Library\\bin' in poppler_path:
print("错误:请务必在脚本中修改 'poppler_bin_path' 变量,")
print(f"将其设置为你电脑上Poppler的bin文件夹的实际路径。")
return
# 创建输出文件夹(如果不存在)
if not os.path.exists(output_dir):
os.makedirs(output_dir)
print(f"已创建输出文件夹: {output_dir}")
print(f"正在从 {pdf_path} 读取PDF文件...")
try:
# 使用convert_from_path进行转换
# poppler_path参数是必需的
images = convert_from_path(
pdf_path=pdf_path,
output_folder=output_dir,
poppler_path=poppler_path,
fmt='png', # 输出格式为png
output_file='page_' # 图片文件名前缀
)
print(f"\n转换成功!")
print(f"总共 {len(images)} 页已被转换为图片,并保存在以下目录中:")
print(output_dir)
except Exception as e:
print("\n转换过程中发生错误!")
print("请仔细检查以下几点:")
print(f"1. Poppler路径是否正确?当前设置为: '{poppler_path}'")
print("2. 是否下载并解压了Poppler?")
print("3. Poppler的版本(64位/32位)是否与你的Python解释器匹配?")
print(f"\n详细错误信息: {e}")
# --- 运行主函数 ---
if __name__ == '__main__':
convert_pdf_to_images(pdf_file_path, output_images_dir, poppler_bin_path)
1000页的pdf大概需要执行10min,执行完成后每一页pdf都被转换成png图片存在文件夹pdf_images里。

- 使用paddle OCR进行OCR识别
环境安装:
https://www.paddleocr.ai/main/quick_start.html#1-paddlepaddle