文章目录
一、问题报错
在处理Excel文件时,特别是当我们使用Python的xlrd库来读取.xlsx格式的文件,偶尔会遇到这样一个错误:"xlrd.biffh.XLRDError: Excel xlsx file; not supported"。这个错误明确地告诉我们,尝试操作的.xlsx文件不被支持。此时,你可能会感到困惑,因为.xlsx是Excel中非常常见的一种格式。
python
Traceback (most recent call last):
File "D:\WorkSpace-Python\Test\read_file.py", line 5, in <module>
data = pd.read_excel('D:\WorkSpace-Python\Test\demo.xlsx')
File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\util\_decorators.py", line 188, in wrapper
return func(*args, **kwargs)
File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\util\_decorators.py", line 188, in wrapper
return func(*args, **kwargs)
File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\io\excel.py", line 350, in read_excel
io = ExcelFile(io, engine=engine)
File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\io\excel.py", line 653, in __init__
self._reader = self._engines[engine](self._io)
File "D:\App\python\python2.7.13\Python27\lib\site-packages\pandas\io\excel.py", line 424, in __init__
self.book = xlrd.open_workbook(filepath_or_buffer)
File "D:\App\python\python2.7.13\Python27\lib\site-packages\xlrd\__init__.py", line 170, in open_workbook
raise XLRDError(FILE_FORMAT_DESCRIPTIONS[file_format]+'; not supported')
xlrd.biffh.XLRDError: Excel xlsx file; not supported
二、报错原因
错误的根本原因在于xlrd库的一个重要更新。从版本2.0.0开始,xlrd库默认只支持旧的.xls格式,而不再支持较新的.xlsx格式。这个更改主要是出于安全和维护的考虑,但它确实给很多依赖xlrd处理.xlsx文件的开发者带来了挑战。
三、解决思路
针对这一问题,我们可以采取以下策略:
- 退回旧版本: 暂时将xlrd库降级到1.2.0版本,该版本仍然支持.xlsx格式。
- 使用openpyxl库:对于.xlsx文件格式,openpyxl是一个更合适的选择,因为它专门用于处理.xlsx文件。
- 使用pandas库:如果你已经在使用pandas进行数据分析,那么可以直接通过pandas来读取.xlsx文件,pandas背后会使用openpyxl或其他库作为引擎。
四、解决方法
方法一: 退回旧版本xlrd:如果你的项目临时无法迁移到其他库,可以考虑将xlrd库退回到支持.xlsx的最后一个版本(通常是1.2.0),记住,长期依赖过时的库可能会带来安全和兼容性风险。
python
pip uninstall xlrd
pip install xlrd==1.2.0
方法二:使用openpyxl库,openpyxl是处理.xlsx文件的理想选择。首先,需要安装openpyxl:
python
pip install openpyxl
读取.xlsx文件:
python
from openpyxl import load_workbook
workbook = load_workbook(filename='your_file.xlsx')
sheet = workbook.active
for row in sheet.iter_rows(values_only=True):
print(row)
方法三: 使用pandas库,pandas提供了一个高级接口来读取.xlsx文件,背后可以选择多种引擎,包括openpyxl。
python
pip install pandas openpyxl
读取.xlsx文件:
python
import pandas as pd
df = pd.read_excel('your_file.xlsx', engine='openpyxl')
print(df)
参考文章:https://blog.csdn.net/FMC_WBL/article/details/136123957