Python酷库之旅-第三方库Pandas(051)

Pandas 简介

Pandas 是 Python 中用于数据分析和操作的核心库,提供高效的数据结构(如 DataFrameSeries)以及数据处理工具,广泛应用于数据清洗、转换、分析和可视化场景。

核心数据结构

DataFrame

二维表格型数据结构,类似电子表格或 SQL 表,支持行标签和列标签。

python 复制代码
import pandas as pd  
df = pd.DataFrame({"A": [1, 2, 3], "B": ["x", "y", "z"]})  

Series

一维带标签数组,可视为 DataFrame 的单列。

python 复制代码
s = pd.Series([10, 20, 30], name="values")  

数据读取与写入

支持多种格式:

python 复制代码
# 从 CSV 读取  
df = pd.read_csv("data.csv")  

# 写入 Excel  
df.to_excel("output.xlsx", index=False)  

# 支持 JSON、SQL、HTML 等格式  

数据操作

筛选与查询

python 复制代码
# 选择列  
df["A"]  

# 条件筛选  
df[df["A"] > 1]  

# 多条件  
df[(df["A"] > 1) & (df["B"] == "y")]  

聚合与分组

python 复制代码
# 分组统计  
df.groupby("B")["A"].sum()  

# 多列聚合  
df.agg({"A": "mean", "B": "count"})  

缺失值处理

python 复制代码
# 检测缺失值  
df.isnull()  

# 填充或删除  
df.fillna(0)  
df.dropna()  

时间序列处理

内置时间类型转换与重采样:

python 复制代码
# 转换时间列  
df["date"] = pd.to_datetime(df["date"])  

# 按周重采样  
df.resample("W", on="date").sum()  

性能优化技巧

  • 使用 df.apply() 替代循环。
  • 避免链式操作,优先使用 df.loc[]
  • 大数据集考虑 dtype 优化(如 category 类型)。

集成其他工具

  • 可视化 :结合 matplotlibseaborn 直接绘图。
  • 机器学习 :与 scikit-learn 无缝衔接,输入数据格式多为 DataFrame。

学习资源

  • 官方文档:pandas.pydata.org
  • 《Python for Data Analysis》书籍(作者:Pandas 创始人 Wes McKinney)。

通过掌握上述功能,可高效完成从数据预处理到分析的全流程任务。

相关推荐
老徐聊GEO18 分钟前
AI搜索流量转化率实测分享:我的案例与复盘
人工智能·python
草莓熊Lotso19 分钟前
【LangChain】流式传输原理与 LangSmith 应用监控全解析
人工智能·python·langchain·gpt-3
老毛肚8 小时前
jeecg-boot-base-core 02 day
javascript·python
yaoxin5211238 小时前
434. Java 日期时间 API - Period 基于日期的时间段
java·开发语言·python
凡人叶枫8 小时前
Effective C++ 条款30:透彻了解 inlining 的里里外外
linux·开发语言·c++·嵌入式开发·effective c++
学逆向的8 小时前
C++纯虚函数
开发语言·c++·网络安全
岁月宁静9 小时前
RAG 文档摄入全链路,从原理到生产落地
vue.js·人工智能·python
程序员二叉9 小时前
【JUC】ThreadLocal底层原理|内存泄漏|弱引用|跨线程传递方案
java·开发语言·面试·职场和发展·juc
程序员二叉9 小时前
【JUC】线程池全套深度详解|参数|流程|拒绝策略|调优|异常处理
java·开发语言·jvm·算法·面试·juc
JaydenAI9 小时前
[对比学习LangChain和MAF-07]如何引入人机交互的审批流程
python·ai·langchain·c#·agent·hitl·maf