解决解析PDF编码报错（以pdfminer为例）：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte xxx

呆萌的代Ma2023-11-21 18:57

解决方法

博主使用的是pdfminer解析PDF文档，这个解决方法是通用的，只需要使PDFParser传入的文件为二进制文件即可，示例程序：

py 复制代码

from pdfminer.pdfparser import PDFParser

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

问题解析

网上down下来的PDF在解析的时候会出现这个问题，导致原来解析程序的逻辑无法读取新的pdf，因此统一修改解析的程序为

py 复制代码

pdf_parser = PDFParser(open("pdf文件.pdf", "rb"))

即可解决一些稀奇古怪的PDF问题

上一篇：python 迭代器

下一篇：突发，Cruise CEO辞职了

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 102026 年 AI 大模型 & AI 编程工具实战全总结