Python酷库之旅-第三方库Pandas(051)

Pandas 简介

Pandas 是 Python 中用于数据分析和操作的核心库,提供高效的数据结构(如 DataFrameSeries)以及数据处理工具,广泛应用于数据清洗、转换、分析和可视化场景。

核心数据结构

DataFrame

二维表格型数据结构,类似电子表格或 SQL 表,支持行标签和列标签。

python 复制代码
import pandas as pd  
df = pd.DataFrame({"A": [1, 2, 3], "B": ["x", "y", "z"]})  

Series

一维带标签数组,可视为 DataFrame 的单列。

python 复制代码
s = pd.Series([10, 20, 30], name="values")  

数据读取与写入

支持多种格式:

python 复制代码
# 从 CSV 读取  
df = pd.read_csv("data.csv")  

# 写入 Excel  
df.to_excel("output.xlsx", index=False)  

# 支持 JSON、SQL、HTML 等格式  

数据操作

筛选与查询

python 复制代码
# 选择列  
df["A"]  

# 条件筛选  
df[df["A"] > 1]  

# 多条件  
df[(df["A"] > 1) & (df["B"] == "y")]  

聚合与分组

python 复制代码
# 分组统计  
df.groupby("B")["A"].sum()  

# 多列聚合  
df.agg({"A": "mean", "B": "count"})  

缺失值处理

python 复制代码
# 检测缺失值  
df.isnull()  

# 填充或删除  
df.fillna(0)  
df.dropna()  

时间序列处理

内置时间类型转换与重采样:

python 复制代码
# 转换时间列  
df["date"] = pd.to_datetime(df["date"])  

# 按周重采样  
df.resample("W", on="date").sum()  

性能优化技巧

  • 使用 df.apply() 替代循环。
  • 避免链式操作,优先使用 df.loc[]
  • 大数据集考虑 dtype 优化(如 category 类型)。

集成其他工具

  • 可视化 :结合 matplotlibseaborn 直接绘图。
  • 机器学习 :与 scikit-learn 无缝衔接,输入数据格式多为 DataFrame。

学习资源

  • 官方文档:pandas.pydata.org
  • 《Python for Data Analysis》书籍(作者:Pandas 创始人 Wes McKinney)。

通过掌握上述功能,可高效完成从数据预处理到分析的全流程任务。

相关推荐
摇滚侠10 分钟前
Java 零基础全套教程,File 类与 IO 流,笔记 177-178
java·开发语言·笔记
ytttr87328 分钟前
OPC UA 协议栈 C 语言实现
c语言·开发语言·mfc
song50128 分钟前
Ascend C 算子开发:从入门到上手
c语言·开发语言·图像处理·人工智能·分布式·flutter·交互
亚亚的学习和分享35 分钟前
python练习:人生模拟器(简易版)
python
小a杰.1 小时前
Ascend C编程语言进阶:高性能算子开发技巧
android·c语言·开发语言
全糖可乐气泡水1 小时前
Codex适配国产信创环境安装部署与技术适配全解析
开发语言·git·python·算法·百度
雨落在了我的手上1 小时前
初始java(十):类和对象(⼆)
java·开发语言
LeocenaY1 小时前
搜集的一些测开面试题
开发语言·python
嗝o゚1 小时前
昇腾CANN ge 仓的图优化 Pass:哪些 Pass 真正影响推理性能
pytorch·python·深度学习·cann·ge-pass
threelab1 小时前
Three.js 加载 3D Tiles 瓦片数据 | 三维可视化 / AI 提示词
开发语言·前端·javascript·人工智能·3d·着色器