pandas
其中的 pd.read_excel() 函数可以读取 excel 文件,支持主流的 .xlsx/.xls 格式。
想要读取 .xlsx 文件就需要再安装 openpyxl 库,想要读取 .xls 文件就需要再安装 xlrd 库。
python
import pandas as pd
file_path = 'test1.xlsx'
data = pd.read_excel(path, engine='openpyxl')
print(data)
读取的结果是一个 DataFrame 对象,DataFrame 是 pandas 中用于处理表格数据的主要数据结构,它具有丰富的属性和方法,具体如下:
1)常用属性
-
data.shape:返回一个元组,表示
DataFrame的维度(行数和列数)。 -
data.columns:返回一个
Index对象,包含DataFrame的列标签。 -
data.index:返回一个
Index对象,包含DataFrame的行标签。 -
data.dtypes:返回一个
Series,显示每列的数据类型。 -
data.size:返回
DataFrame中元素的总数(行数乘以列数)。 -
data.ndim:返回
DataFrame的维度数(通常是 2)。 -
data.empty:返回一个布尔值,指示
DataFrame是否为空。
2)常用方法
-
data.head(n):返回前
n行数据(默认是 5 行)。 -
data.tail(n):返回后
n行数据(默认是 5 行)。 -
data.describe():返回数值列的统计摘要(如计数、均值、标准差、最小值、四分位数、最大值)。
-
data.info():打印
DataFrame的简要摘要,包括行数、列数、列类型和非空值计数。 -
data.isnull():返回一个布尔型
DataFrame,指示每个元素是否为NaN。 -
data.dropna():删除包含
NaN的行。 -
data.fillna(value):用指定的值填充
NaN。 -
data.groupby(column):按指定列对
DataFrame进行分组。 -
data.pivot_table(values, index, columns):创建一个数据透视表。
-
data.apply(func):沿
DataFrame的轴应用函数。
3)示例
python
import pandas as pd
file_path = 'test1.xlsx'
data = pd.read_excel(file_path, engine='openpyxl')
# 打印形状
print("Shape:", data.shape)
print("----------------------------")
# 打印列标签
print("Columns:", data.columns)
print("----------------------------")
# 打印前两行
print("Head:\n", data.head(2))
# -------------------------------------------------------------------------------------------------------------------------
# 输出为:
Shape: (159, 6)
Columns: Index(['frame', 'point number', 'x', 'y', 'z', 'intensity'], dtype='object')
Head:
frame point number x y z intensity
0 0 0 1.507812 -0.339844 0.164062 22.174839
1 0 1 1.621094 -0.537109 -0.193359 27.379873