解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

py 复制代码
from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

py 复制代码
pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

相关推荐
陌殇殇5 小时前
Java使用IText7动态生成带审批文本框的PDF文档
java·pdf
Ven%12 小时前
VsCode如何使用默认程序打开word Excel pdf等文件
ide·vscode·pdf·编辑器
软件工程小施同学13 小时前
计算机学报 2024年 区块链论文 录用汇总 附pdf下载
pdf·区块链
Sherlock Ma1 天前
PDFMathTranslate:基于LLM的PDF文档翻译及双语对照的工具【使用教程】
人工智能·pytorch·语言模型·pdf·大模型·机器翻译·deepseek
kadog1 天前
PubMed PDF下载 cloudpmc-viewer-pow逆向
前端·javascript·人工智能·爬虫·pdf
小墨宝1 天前
js 生成pdf 并上传文件
前端·javascript·pdf
热水养鲨鱼2 天前
Java实现HTML转PDF(deepSeekAi->html->pdf)
人工智能·pdf·html
开开心心_Every2 天前
体积小巧的 Word 转 PDF 批量工具
pdf
一眼青苔2 天前
切割PDF使用python,库PyPDF2
服务器·python·pdf
zyk_5202 天前
前端渲染pdf文件解决方案-pdf.js
前端·javascript·pdf