xlrd.biffh.XLRDError: Excel xlsx file; not supported

文章目录

一、问题报错

在处理Excel文件时,特别是当我们使用Python的xlrd库来读取.xlsx格式的文件,偶尔会遇到这样一个错误:"xlrd.biffh.XLRDError: Excel xlsx file; not supported"。这个错误明确地告诉我们,尝试操作的.xlsx文件不被支持。此时,你可能会感到困惑,因为.xlsx是Excel中非常常见的一种格式。

python 复制代码
Traceback (most recent call last):
  File "D:\WorkSpace-Python\Test\read_file.py", line 5, in <module>
    data = pd.read_excel('D:\WorkSpace-Python\Test\demo.xlsx')
  File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\util\_decorators.py", line 188, in wrapper
    return func(*args, **kwargs)
  File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\util\_decorators.py", line 188, in wrapper
    return func(*args, **kwargs)
  File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\io\excel.py", line 350, in read_excel
    io = ExcelFile(io, engine=engine)
  File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\io\excel.py", line 653, in __init__
    self._reader = self._engines[engine](self._io)
  File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\io\excel.py", line 424, in __init__
    self.book = xlrd.open_workbook(filepath_or_buffer)
  File "D:\App\python\python2.7.13\Python27\lib\site-packages\xlrd\__init__.py", line 170, in open_workbook
    raise XLRDError(FILE_FORMAT_DESCRIPTIONS[file_format]+'; not supported')
xlrd.biffh.XLRDError: Excel xlsx file; not supported

二、报错原因

错误的根本原因在于xlrd库的一个重要更新。从版本2.0.0开始,xlrd库默认只支持旧的.xls格式,而不再支持较新的.xlsx格式。这个更改主要是出于安全和维护的考虑,但它确实给很多依赖xlrd处理.xlsx文件的开发者带来了挑战。

三、解决思路

针对这一问题,我们可以采取以下策略:

  • 退回旧版本: 暂时将xlrd库降级到1.2.0版本,该版本仍然支持.xlsx格式。
  • 使用openpyxl库:对于.xlsx文件格式,openpyxl是一个更合适的选择,因为它专门用于处理.xlsx文件。
  • 使用pandas库:如果你已经在使用pandas进行数据分析,那么可以直接通过pandas来读取.xlsx文件,pandas背后会使用openpyxl或其他库作为引擎。

四、解决方法

方法一: 退回旧版本xlrd:如果你的项目临时无法迁移到其他库,可以考虑将xlrd库退回到支持.xlsx的最后一个版本(通常是1.2.0),记住,长期依赖过时的库可能会带来安全和兼容性风险。

python 复制代码
pip uninstall xlrd
pip install xlrd==1.2.0

方法二:使用openpyxl库,openpyxl是处理.xlsx文件的理想选择。首先,需要安装openpyxl:

python 复制代码
pip install openpyxl

读取.xlsx文件:

python 复制代码
from openpyxl import load_workbook
 
workbook = load_workbook(filename='your_file.xlsx')
sheet = workbook.active
for row in sheet.iter_rows(values_only=True):
    print(row)

方法三: 使用pandas库,pandas提供了一个高级接口来读取.xlsx文件,背后可以选择多种引擎,包括openpyxl。

python 复制代码
pip install pandas openpyxl

读取.xlsx文件:

python 复制代码
import pandas as pd
 
df = pd.read_excel('your_file.xlsx', engine='openpyxl')
print(df)

参考文章:https://blog.csdn.net/FMC_WBL/article/details/136123957