Python酷库之旅-第三方库Pandas(051)

Pandas 简介

Pandas 是 Python 中用于数据分析和操作的核心库,提供高效的数据结构(如 DataFrameSeries)以及数据处理工具,广泛应用于数据清洗、转换、分析和可视化场景。

核心数据结构

DataFrame

二维表格型数据结构,类似电子表格或 SQL 表,支持行标签和列标签。

python 复制代码
import pandas as pd  
df = pd.DataFrame({"A": [1, 2, 3], "B": ["x", "y", "z"]})  

Series

一维带标签数组,可视为 DataFrame 的单列。

python 复制代码
s = pd.Series([10, 20, 30], name="values")  

数据读取与写入

支持多种格式:

python 复制代码
# 从 CSV 读取  
df = pd.read_csv("data.csv")  

# 写入 Excel  
df.to_excel("output.xlsx", index=False)  

# 支持 JSON、SQL、HTML 等格式  

数据操作

筛选与查询

python 复制代码
# 选择列  
df["A"]  

# 条件筛选  
df[df["A"] > 1]  

# 多条件  
df[(df["A"] > 1) & (df["B"] == "y")]  

聚合与分组

python 复制代码
# 分组统计  
df.groupby("B")["A"].sum()  

# 多列聚合  
df.agg({"A": "mean", "B": "count"})  

缺失值处理

python 复制代码
# 检测缺失值  
df.isnull()  

# 填充或删除  
df.fillna(0)  
df.dropna()  

时间序列处理

内置时间类型转换与重采样:

python 复制代码
# 转换时间列  
df["date"] = pd.to_datetime(df["date"])  

# 按周重采样  
df.resample("W", on="date").sum()  

性能优化技巧

  • 使用 df.apply() 替代循环。
  • 避免链式操作,优先使用 df.loc[]
  • 大数据集考虑 dtype 优化(如 category 类型)。

集成其他工具

  • 可视化 :结合 matplotlibseaborn 直接绘图。
  • 机器学习 :与 scikit-learn 无缝衔接,输入数据格式多为 DataFrame。

学习资源

  • 官方文档:pandas.pydata.org
  • 《Python for Data Analysis》书籍(作者:Pandas 创始人 Wes McKinney)。

通过掌握上述功能,可高效完成从数据预处理到分析的全流程任务。

相关推荐
功德+n1 小时前
Linux下安装与配置Docker完整详细步骤
linux·运维·服务器·开发语言·docker·centos
明日清晨1 小时前
python扫码登录dy
开发语言·python
我是唐青枫1 小时前
C#.NET gRPC 深入解析:Proto 定义、流式调用与服务间通信取舍
开发语言·c#·.net
JJay.1 小时前
Kotlin 高阶函数学习指南
android·开发语言·kotlin
bazhange1 小时前
python如何像matlab一样使用向量化替代for循环
开发语言·python·matlab
jinanwuhuaguo1 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
froginwe111 小时前
CSS 创建:从基础到高级
开发语言
人工干智能1 小时前
科普:python中你写的模块找不到了——`ModuleNotFoundError`
服务器·python
unicrom_深圳市由你创科技2 小时前
做虚拟示波器这种实时波形显示的上位机,用什么语言?
c++·python·c#
小敬爱吃饭2 小时前
Ragflow Docker部署及问题解决方案(界面为Welcome to nginx,ragflow上传文件失败,Docker中的ragflow-cpu-1一直重启)
人工智能·python·nginx·docker·语言模型·容器·数据挖掘