Python酷库之旅-第三方库Pandas(051)

Pandas 简介

Pandas 是 Python 中用于数据分析和操作的核心库,提供高效的数据结构(如 DataFrameSeries)以及数据处理工具,广泛应用于数据清洗、转换、分析和可视化场景。

核心数据结构

DataFrame

二维表格型数据结构,类似电子表格或 SQL 表,支持行标签和列标签。

python 复制代码
import pandas as pd  
df = pd.DataFrame({"A": [1, 2, 3], "B": ["x", "y", "z"]})  

Series

一维带标签数组,可视为 DataFrame 的单列。

python 复制代码
s = pd.Series([10, 20, 30], name="values")  

数据读取与写入

支持多种格式:

python 复制代码
# 从 CSV 读取  
df = pd.read_csv("data.csv")  

# 写入 Excel  
df.to_excel("output.xlsx", index=False)  

# 支持 JSON、SQL、HTML 等格式  

数据操作

筛选与查询

python 复制代码
# 选择列  
df["A"]  

# 条件筛选  
df[df["A"] > 1]  

# 多条件  
df[(df["A"] > 1) & (df["B"] == "y")]  

聚合与分组

python 复制代码
# 分组统计  
df.groupby("B")["A"].sum()  

# 多列聚合  
df.agg({"A": "mean", "B": "count"})  

缺失值处理

python 复制代码
# 检测缺失值  
df.isnull()  

# 填充或删除  
df.fillna(0)  
df.dropna()  

时间序列处理

内置时间类型转换与重采样:

python 复制代码
# 转换时间列  
df["date"] = pd.to_datetime(df["date"])  

# 按周重采样  
df.resample("W", on="date").sum()  

性能优化技巧

  • 使用 df.apply() 替代循环。
  • 避免链式操作,优先使用 df.loc[]
  • 大数据集考虑 dtype 优化(如 category 类型)。

集成其他工具

  • 可视化 :结合 matplotlibseaborn 直接绘图。
  • 机器学习 :与 scikit-learn 无缝衔接,输入数据格式多为 DataFrame。

学习资源

  • 官方文档:pandas.pydata.org
  • 《Python for Data Analysis》书籍(作者:Pandas 创始人 Wes McKinney)。

通过掌握上述功能,可高效完成从数据预处理到分析的全流程任务。

相关推荐
m0_730115113 分钟前
自动化机器学习(AutoML)库TPOT使用指南
jvm·数据库·python
luffy54598 分钟前
Rust语言入门-变量篇
开发语言·后端·rust
FreakStudio11 分钟前
MicroPython+PycoClaw,3 分钟搞定 ESP32 跑上 OpenClaw!
python·单片机·嵌入式·电子diy
2301_8073671914 分钟前
C++中的模板方法模式
开发语言·c++·算法
weixin_5375904515 分钟前
《C程序语言设计》练习答案(练习1-3)
c语言·开发语言
罗罗攀25 分钟前
PyTorch学习笔记|张量的广播和科学运算
人工智能·pytorch·笔记·python·学习
m0_4592524627 分钟前
fastadmin动态渲染统计信息
开发语言·前端·javascript·php
傻啦嘿哟1 小时前
Python 操作 Excel 条件格式指南
开发语言·python·excel
逆境不可逃1 小时前
LeetCode 热题 100 之 33. 搜索旋转排序数组 153. 寻找旋转排序数组中的最小值 4. 寻找两个正序数组的中位数
java·开发语言·数据结构·算法·leetcode·职场和发展
2301_807367191 小时前
Python日志记录(Logging)最佳实践
jvm·数据库·python