解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

py 复制代码
from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

py 复制代码
pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

相关推荐
dagouaofei3 小时前
全面整理6款文档生成PPT工具,PDF转PPT不再难
python·pdf·powerpoint
yesyesyoucan3 小时前
PDF全能处理站:压缩、拆分、合并一站式解决方案与核心技术解析
pdf
sunon_5 小时前
解决linux系统PDF中文乱码问题
linux·运维·pdf
小灰灰搞电子6 小时前
Qt PDF模块详解
数据库·qt·pdf
TextIn智能文档云平台6 小时前
如何将公司内部知识库(Word/PDF)接入大模型?
pdf·word
HSJ01707 小时前
PDF专业转换工具 - 专业版V0.1,PDF转图片、拆分、合并,高效稳定可靠,永久免费使用
pdf
dagouaofei7 小时前
文档生成PPT到底快不快?PDF转PPT工具实测分析
python·pdf·powerpoint
轻竹办公PPT1 天前
上传PDF直接生成PPT,适合工作汇报和总结场景
python·pdf·powerpoint
非凡ghost1 天前
FlexiPDF(专业PDF编辑软件)
windows·学习·pdf·软件需求
xinyu_Jina1 天前
PaperStudio:WYSIWYG文档的Web实现——从CSS Print到客户端PDF生成的技术解析
前端·css·pdf