Python酷库之旅-第三方库Pandas(051)

4***17542026-01-14 8:31

Pandas 是 Python 中用于数据分析和操作的核心库，提供高效的数据结构（如 DataFrame 和 Series）以及数据处理工具，广泛应用于数据清洗、转换、分析和可视化场景。

DataFrame

二维表格型数据结构，类似电子表格或 SQL 表，支持行标签和列标签。

python 复制代码

import pandas as pd  
df = pd.DataFrame({"A": [1, 2, 3], "B": ["x", "y", "z"]})

Series

一维带标签数组，可视为 DataFrame 的单列。

python 复制代码

s = pd.Series([10, 20, 30], name="values")

支持多种格式：

python 复制代码

# 从 CSV 读取  
df = pd.read_csv("data.csv")  

# 写入 Excel  
df.to_excel("output.xlsx", index=False)  

# 支持 JSON、SQL、HTML 等格式

筛选与查询

python 复制代码

# 选择列  
df["A"]  

# 条件筛选  
df[df["A"] > 1]  

# 多条件  
df[(df["A"] > 1) & (df["B"] == "y")]

聚合与分组

python 复制代码

# 分组统计  
df.groupby("B")["A"].sum()  

# 多列聚合  
df.agg({"A": "mean", "B": "count"})

python 复制代码

# 检测缺失值  
df.isnull()  

# 填充或删除  
df.fillna(0)  
df.dropna()

内置时间类型转换与重采样：

python 复制代码

# 转换时间列  
df["date"] = pd.to_datetime(df["date"])  

# 按周重采样  
df.resample("W", on="date").sum()

通过掌握上述功能，可高效完成从数据预处理到分析的全流程任务。