目录
-
- 一、安装与导入
- 二、核心数据结构
-
- [2.1 Series 类型(一维数组)](#2.1 Series 类型(一维数组))
- [2.2 DataFrame 类型(二维数组)](#2.2 DataFrame 类型(二维数组))
- 三、数据读取与写入
-
- [3.1 读取 CSV 和 Excel 文件](#3.1 读取 CSV 和 Excel 文件)
- [3.2 写入数据](#3.2 写入数据)
- 四、数据清洗与处理
-
- [4.1 处理缺失值](#4.1 处理缺失值)
- [4.2 数据筛选](#4.2 数据筛选)
- [4.3 数据排序](#4.3 数据排序)
- 五、数据分析
-
- [5.1 统计描述](#5.1 统计描述)
- [5.2 分组聚合](#5.2 分组聚合)
- [5.3 数据透视表](#5.3 数据透视表)
- 六、数据可视化
- 七、高级功能
-
- [7.1 合并数据](#7.1 合并数据)
- [7.2 处理时间序列](#7.2 处理时间序列)

什么是pandas?
pandas
是 Python 中一个强大的 数据处理和分析库 ,广泛应用于 数据清洗 、转换 、分析 和 可视化 等领域。它提供了搞笑的数据结构(如 DataFrame
和 Series
),使得处理结构化数据变得简单而高效。本文将详细介绍 pandas
的核心功能和使用方法,帮助你快速掌握这一工具。
pandas 的特点如下:
- 高效的数据结构:
Series
和DataFrame
提供了灵活的数据操作方式。 - 强大的数据处理能力: 支持数据清洗、转换、分析和可视化。
- 丰富的文件格式支持: 可以轻松读取和写入 CSV、Excel、JSON 等文件格式。
一、安装与导入
安装:
在开始使用 pandas
之前,需要先进行安装。可以通过以下命令安装:
bash
pip install pandas
导入:
安装完成后,在代码中导入 pandas
:
python
import pandas as pd
二、核心数据结构
pandas 的主要数据结构是:Series
(一维数据) 和 DataFrame
(二维数据)。
2.1 Series 类型(一维数组)
Series
是一个一维数组,可以 存储任意类型的数据(如整数、字符串、浮点数等),并带有索引。
创建 Series:
- 语法:pandas.Series([对象1, 对象2])
python
import pandas as pd
# 从列表创建 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)
执行结果:

访问 Series:
python
# 通过索引访问数据
print(s[0]) # 输出 1
# 通过位置访问数据
print(s.iloc[1]) # 输出 3
执行结果:

2.2 DataFrame 类型(二维数组)
DataFrame
是一个二维表格数据结构,类似于 Excel 表格或 SQL 表。它由行和列组成,每列可以是不同的数据类型。
创建 DataFrame:
python
# 从字典创建 DataFrame
data = {
"Name": ["Alice", "Bob", "Charlie"],
"Age": [25, 30, 35],
"City": ["New York", "Los Angeles", "Chicago"]
}
df = pd.DataFrame(data)
print(df)
执行结果:

访问 DataFrame:
python
# 访问列
print(df["Name"]) # 输出 Name 列
print("==============")
# 访问行
print(df.iloc[0]) # 输出第一行
执行结果:

三、数据读取与写入
pandas
支持从多种文件格式读取数据,并将数据写入这些格式。
3.1 读取 CSV 和 Excel 文件
读取 CSV 文件:
python
df = pd.read_csv("data.csv")
print(df.head())
csv内容如下:
json
"Name","Age","City"
Alice,25,New York
Bob,30,Los Angeles
Charlie,35,Chicago
执行结果:

读取 Excel 文件:
python
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")
print(df.head())
Excel 内容如下:

执行结果:

3.2 写入数据
写入 CSV 文件:
python
df.to_csv("output.csv", index=False)
写入 Excel 文件:
python
df.to_excel("output.xlsx", sheet_name="Sheet1", index=False)
四、数据清洗与处理
4.1 处理缺失值
python
# 检查缺失项
print(df.isnull())
# 填充缺失值
df_filled = df.fillna(0) # 用 0 填充缺失值
# 删除包含缺失值的行
df_dropped = df.ropna()
4.2 数据筛选
python
# 筛选 Age 大于 30 的行
df_filtered = df[df["Age"] > 30]
print(df_filtered)
执行结果:

4.3 数据排序
python
# 按 Age 列升序排序
df_sorted = df.sort_values(by="Age")
print(df_sorted)
执行结果:

五、数据分析
5.1 统计描述
python
# 查看数据的基本统计信息
print(df.describe())
执行结果:

5.2 分组聚合
python
# 按 City 分组并计算平均年龄
df_grouped = df.groupby("City")["Age"].mean()
print(df_grouped)
执行结果:

5.3 数据透视表
python
# 创建数据透视表
df_pivot = df.pivot_table(index="City", values="Age", aggfunc="mean")
print(df_pivot)
执行结果:

六、数据可视化
pandas
结合 matplotlib
可以方便地进行数据可视化。
安装命令:
bash
pip install matplotlib
示例:绘制柱状图
python
import matplotlib.pyplot as plt
# 绘制 Age 列地柱状图
df["Age"].plot(kind="bar")
plt.show()
执行结果:

七、高级功能
7.1 合并数据
python
# 合并两个 DataFrame
df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pd.DataFrame({"A": [5, 6], "B": [7, 8]})
df_merged = pd.concat([df1, df2])
print(df_merged)
执行结果:

7.2 处理时间序列
python
# 创建时间序列
dates = pd.date_range("20230101", periods=6)
df_time = pd.DataFrame({"Date": dates, "Value": [1, 2, 3, 4, 5, 6]})
print(df_time)
执行结果:

整理完毕,完结撒花~ 🌻
参考地址:
1.pandas用法-全网最详细教程,https://blog.csdn.net/Strive_For_Future/article/details/126710810