解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

py 复制代码
from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

py 复制代码
pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

相关推荐
weixin_441003649 小时前
2027徐涛《核心考案+优题库》电子版pdf
pdf
IT大师兄吖10 小时前
paddleOcr 懒人整合包 添加pdf和图片转markdown 添加GPU支持
pdf
IT大师兄吖10 小时前
PaddleOCR-VL-1.5 懒人整合包 支持PDF转MD 比PP-StructureV3更精准
pdf
AmyLin_200111 小时前
【pdf2md-3:实现揭秘】福昕PDF SDK Python 开发实战:从逐字符提取到 LR 版面分析
开发语言·python·pdf·sdk·markdown·pdf2md
开开心心就好12 小时前
伪装文件历史记录!修改时间的黑科技软件
java·前端·科技·r语言·edge·pdf·语音识别
其实秋天的枫13 小时前
【26最新】考研计算机408统考历年真题及答案解析PDF电子版(2009-2026年)
经验分享·pdf
优化控制仿真模型14 小时前
【26最新】考研计算机408统考历年真题及答案解析PDF电子版(2009-2026年)
经验分享·pdf
IT大师兄吖15 小时前
小红书FireRed-OCR 2B 图片和PDF转md 懒人整合包
pdf·ocr
SEO-狼术15 小时前
Secure PDF Delphi Edition
服务器·windows·pdf
long_songs15 小时前
纯前端 PNG/JPG 转 PDF 工具(无需服务器,源码分享)
服务器·前端·pdf