解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

py 复制代码
from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

py 复制代码
pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

相关推荐
Charlie_lll1 天前
LibreOffice 实现 Word 转 PDF
java·spring boot·pdf·word
Java后端的Ai之路1 天前
【AI大模型开发】-基于向量数据库的PDF智能问答系统(实战)
人工智能·pdf·向量数据库·智能问答系统
zhangfeng11332 天前
[图书推荐]1000本电子书的开源项目 pdf
pdf
SunnyDays10112 天前
Java 旋转 PDF 页面完整指南(含示例)
java·pdf·pdf页面旋转·旋转pdf页面
JaredYe2 天前
纯 Node.js 的 PDF 转 Markdown 方案:支持图片解析的pdf2md库 `node-pdf-to-markdown`
pdf·node.js·markdown·md·pdf2md
wxl7812272 天前
基于Cognee实现PDF图文并茂解析与检索的实践方案
pdf·ocr·图文并茂·cognee
林恒smileZAZ2 天前
前端 HTML 转 PDF
前端·pdf·html
好像不对劲2 天前
python去除pdf白边
开发语言·python·pdf·kindle
我要学好英语3 天前
知网下载的.caj文件怎么转成.pdf文件
pdf
墨痕诉清风3 天前
文件上传漏洞(PDF文件)
安全·web安全·pdf