解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

py 复制代码
from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

py 复制代码
pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

相关推荐
2501_930707781 小时前
使用C#代码将ODT转换为PDF文件
pdf
搞什么滚去学习1 小时前
在昇腾910B服务上部署搭建适配PDF解析工具Mineru2.5开源项目
pdf
傻啦嘿哟2 小时前
Python高效实现Excel转PDF:无Office依赖的轻量化方案
python·pdf·excel
CodeCraft Studio21 小时前
CAD文件处理控件Aspose.CAD教程:在 Python 中将 SVG 转换为 PDF
开发语言·python·pdf·svg·cad·aspose·aspose.cad
CodeCraft Studio1 天前
国产化PDF处理控件Spire.PDF教程:C#中轻松修改 PDF 文档内容
前端·pdf·c#·.net·spire.pdf·编辑pdf·修改pdf
bigcarp1 天前
用A4打印机1:1打印A3试卷(A3 pdf切割)
pdf
winfredzhang2 天前
Python小说图片PDF生成器开发详解
python·pdf·图文并茂·电子小说
^O^ ^O^2 天前
pc端pdf预览
前端·javascript·pdf
2501_929157683 天前
FC和SFC的原版说明书(扫描的PDF)
pdf
zhangfeng11334 天前
R 导出 PDF 时中文不显示 不依赖 showtext** 的最简方案(用 extrafont 把系统 TTF 真正灌进 PDF 内核)
开发语言·r语言·pdf·生物信息