Pandas 简介
Pandas 是 Python 中用于数据分析和操作的核心库,提供高效的数据结构(如 DataFrame 和 Series)以及数据处理工具,广泛应用于数据清洗、转换、分析和可视化场景。
核心数据结构
DataFrame
二维表格型数据结构,类似电子表格或 SQL 表,支持行标签和列标签。
python
import pandas as pd
df = pd.DataFrame({"A": [1, 2, 3], "B": ["x", "y", "z"]})
Series
一维带标签数组,可视为 DataFrame 的单列。
python
s = pd.Series([10, 20, 30], name="values")
数据读取与写入
支持多种格式:
python
# 从 CSV 读取
df = pd.read_csv("data.csv")
# 写入 Excel
df.to_excel("output.xlsx", index=False)
# 支持 JSON、SQL、HTML 等格式
数据操作
筛选与查询
python
# 选择列
df["A"]
# 条件筛选
df[df["A"] > 1]
# 多条件
df[(df["A"] > 1) & (df["B"] == "y")]
聚合与分组
python
# 分组统计
df.groupby("B")["A"].sum()
# 多列聚合
df.agg({"A": "mean", "B": "count"})
缺失值处理
python
# 检测缺失值
df.isnull()
# 填充或删除
df.fillna(0)
df.dropna()
时间序列处理
内置时间类型转换与重采样:
python
# 转换时间列
df["date"] = pd.to_datetime(df["date"])
# 按周重采样
df.resample("W", on="date").sum()
性能优化技巧
- 使用
df.apply()替代循环。 - 避免链式操作,优先使用
df.loc[]。 - 大数据集考虑
dtype优化(如category类型)。
集成其他工具
- 可视化 :结合
matplotlib或seaborn直接绘图。 - 机器学习 :与
scikit-learn无缝衔接,输入数据格式多为 DataFrame。
学习资源
- 官方文档:pandas.pydata.org
- 《Python for Data Analysis》书籍(作者:Pandas 创始人 Wes McKinney)。
通过掌握上述功能,可高效完成从数据预处理到分析的全流程任务。