解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

py 复制代码
from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

py 复制代码
pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

相关推荐
大强同学17 小时前
Adobe DC 2025安装教程
windows·adobe·pdf
诸葛大钢铁1 天前
如何免费在线PDF转换成Excel
职场和发展·pdf·excel
开开心心就好1 天前
Word图片格式调整与转换工具
java·javascript·spring·eclipse·pdf·word·excel
icloudelectron1 天前
Altium Designer AD如何输出PIN带网络名的PDF装配图
pdf
沉到海底去吧Go1 天前
【软件工具】基于PDF文件内容识别的改名软件,PDF根据内容自动重命名,如何识别pdf内容并做文件命名,PDF批量改名
pdf·扫描pdf文档批量文件改名·批量提取识别pdf中的特定字段·根据pdf某个区域内容改名·图片识别工具
EchoZeal1 天前
【实测有效】Edge浏览器打开部分pdf文件显示空白
edge·pdf·adobe acrobat
敲代码的小吉米2 天前
前端上传el-upload、原生input本地文件pdf格式(纯前端预览本地文件不走后端接口)
前端·javascript·pdf·状态模式
东方巴黎~Sunsiny2 天前
EasyExcel导出excel再转PDF转图片详解
pdf·excel
aklry2 天前
uniapp实现在线pdf预览以及下载
前端·pdf·uni-app
繁依Fanyi2 天前
我的 PDF 工具箱:CodeBuddy 打造 PDFMagician 的全过程记录
java·pdf·uni-app·生活·harmonyos·codebuddy首席试玩官