Python酷库之旅-第三方库Pandas(051)

Pandas 简介

Pandas 是 Python 中用于数据分析和操作的核心库,提供高效的数据结构(如 DataFrameSeries)以及数据处理工具,广泛应用于数据清洗、转换、分析和可视化场景。

核心数据结构

DataFrame

二维表格型数据结构,类似电子表格或 SQL 表,支持行标签和列标签。

python 复制代码
import pandas as pd  
df = pd.DataFrame({"A": [1, 2, 3], "B": ["x", "y", "z"]})  

Series

一维带标签数组,可视为 DataFrame 的单列。

python 复制代码
s = pd.Series([10, 20, 30], name="values")  

数据读取与写入

支持多种格式:

python 复制代码
# 从 CSV 读取  
df = pd.read_csv("data.csv")  

# 写入 Excel  
df.to_excel("output.xlsx", index=False)  

# 支持 JSON、SQL、HTML 等格式  

数据操作

筛选与查询

python 复制代码
# 选择列  
df["A"]  

# 条件筛选  
df[df["A"] > 1]  

# 多条件  
df[(df["A"] > 1) & (df["B"] == "y")]  

聚合与分组

python 复制代码
# 分组统计  
df.groupby("B")["A"].sum()  

# 多列聚合  
df.agg({"A": "mean", "B": "count"})  

缺失值处理

python 复制代码
# 检测缺失值  
df.isnull()  

# 填充或删除  
df.fillna(0)  
df.dropna()  

时间序列处理

内置时间类型转换与重采样:

python 复制代码
# 转换时间列  
df["date"] = pd.to_datetime(df["date"])  

# 按周重采样  
df.resample("W", on="date").sum()  

性能优化技巧

  • 使用 df.apply() 替代循环。
  • 避免链式操作,优先使用 df.loc[]
  • 大数据集考虑 dtype 优化(如 category 类型)。

集成其他工具

  • 可视化 :结合 matplotlibseaborn 直接绘图。
  • 机器学习 :与 scikit-learn 无缝衔接,输入数据格式多为 DataFrame。

学习资源

  • 官方文档:pandas.pydata.org
  • 《Python for Data Analysis》书籍(作者:Pandas 创始人 Wes McKinney)。

通过掌握上述功能,可高效完成从数据预处理到分析的全流程任务。

相关推荐
瓶中怪6 分钟前
ROS2 机器人软件系统
linux·c++·python·ubuntu·vmware·ros2·机器人软件开发
满怀冰雪18 分钟前
22_Runnable接口源码拆解_LCEL管道语法背后_invoke_stream_batch究竟做了什么
python·batch
大气的小蜜蜂24 分钟前
基于Python+Django的健身房管理系统实现:核心亮点全流程解析
开发语言·python·django
天空'之城26 分钟前
Linux 系统编程 04:进程基础
linux·开发语言·进程基础
2zcode42 分钟前
免费开源项目文档:基于MATLAB图像处理的药片检测与计数系统设计与实现
开发语言·图像处理·matlab
charlie1145141911 小时前
Cinux: 加载第一个内核:从 bootloader 跳进 C++
linux·开发语言·c++·嵌入式
赵民勇1 小时前
Python 协程详解与技巧总结
python
极光代码工作室1 小时前
基于YOLO目标检测的智能监控系统
python·深度学习·yolo·机器学习·计算机视觉
. . . . .1 小时前
Egg框架深入
java·开发语言
江华森2 小时前
Python 进阶编程实战 — 从多版本环境到百万级登录系统
python