解决解析PDF编码报错(以pdfminer为例):UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

解决方法

博主使用的是pdfminer解析PDF文档,这个解决方法是通用的,只需要使PDFParser传入的文件为二进制文件即可,示例程序:

py 复制代码
from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题,导致原来解析程序的逻辑无法读取新的pdf,因此统一修改解析的程序为

py 复制代码
pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

相关推荐
勘察加熊人1 小时前
form实现pdf文件转换成jpg文件
pdf·c#
乘风!11 小时前
Java导出excel,表格插入pdf附件,以及实现过程中遇见的坑
java·pdf·excel
ElasticPDF-新国产PDF编辑器12 小时前
Uni-app PDF Annotation plugin library online API examples
pdf·uni-app
ElasticPDF-新国产PDF编辑器15 小时前
Angular use pdf.js and Elasticpdf tutorial
javascript·pdf·angular.js
ElasticPDF-新国产PDF编辑器19 小时前
Angular 项目使用 pdf.js 及批注插件Elasticpdf 教程
javascript·pdf·angular.js
ElasticPDF-新国产PDF编辑器2 天前
Vue use pdf.js and Elasticpdf tutorial
vue.js·pdf
ElasticPDF-新国产PDF编辑器2 天前
Angular 项目 PDF 批注插件库在线版 API 示例教程
前端·pdf·angular.js
夏天想2 天前
vant4+vue3上传一个pdf文件并实现pdf的预览。使用插件pdf.js
开发语言·javascript·pdf·vant
ElasticPDF-新国产PDF编辑器2 天前
React 项目 PDF 批注插件库在线版 API 示例教程
react.js·pdf·json
hello_simon2 天前
在线小白工具,PPT转PDF支持多种热门工具,支持批量转换,操作简单,高效适合各种需求
pdf·html·powerpoint·excel·pdf转html·excel转pdf格式