解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

py 复制代码
from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

py 复制代码
pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

相关推荐
qq_422152577 小时前
PDF 转 Word 哪个工具好用?2026 年主流方案对比与选型指南
pdf·word
2601_9611940210 小时前
27考研资料|免费全套|电子版
考研·百度·微信·pdf·微信公众平台·facebook·新浪微博
开开心心就好16 小时前
清理重复文件释放C盘空间的工具
安全·智能手机·pdf·gitlab·音视频·intellij idea·1024程序员节
2501_9307077816 小时前
使用C#代码在现有 PDF 文档中添加页眉
pdf
Metaphor69216 小时前
使用 Python 旋转 PDF 页面
python·pdf
2601_9611940216 小时前
考研资料电子版|下载|pdf
java·python·考研·eclipse·django·pdf·pygame
hust_a16 小时前
做了一个类似MinerU的pdf解析网站
pdf
开开心心_Every1 天前
解决打印机共享难题的实用工具
linux·b树·安全·游戏·随机森林·pdf·计算机外设
暮云星影2 天前
个人总结 docker搭建PDF操作工具
docker·容器·pdf
学***54232 天前
如何编辑PDF文件?3种简单好用的PDF编辑方法
pdf