解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

py 复制代码
from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

py 复制代码
pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

相关推荐
一名技术极客1 分钟前
Vue2 doc、excel、pdf、ppt、txt、图片以及视频等在线预览
pdf·powerpoint·excel·文件在线预览
S. Dylan14 小时前
Edge浏览器打开PDF无法显示电子签章
edge·pdf
一马平川的大草原14 小时前
如何基于pdf2image实现pdf批量转换为图片
计算机视觉·pdf·文件拆分
m0_5945263014 小时前
Python批量合并多个PDF
java·python·pdf
hairenjing112314 小时前
将图片添加到 PDF 的 5 种方法
pdf
✿゚卡笨卡14 小时前
pdf 添加页眉页脚,获取前五页
java·pdf
blegn14 小时前
PDF编辑工具Adobe Acrobat DC 2023安装教程(附安装包)
pdf·办公软件·office
patrickpdx15 小时前
如何调整pdf的页面尺寸
pdf
星月前端18 小时前
【vue-pdf】简单封装pdf预览组件
javascript·vue.js·pdf
Eiceblue1 天前
Python 在PDF中绘制形状(线条、矩形、椭圆形等)
vscode·python·pycharm·pdf