零基础讲解pandas

一、Pandas 是什么？

Pandas 是 Python 中一个强大的数据分析库 ，专门用于处理表格数据（类似 Excel 表格）。它的名字来源于 "Panel Data"（面板数据）。主要功能包括：

数据读取/写入（支持 CSV、Excel、SQL 等格式）
数据清洗（处理缺失值、重复值等）
数据筛选、排序、聚合
数据统计和分析

二、安装和导入

安装 Pandas （如果尚未安装）：

在命令行中输入：
复制代码
```
pip install pandas
```
导入库 ：

在 Python 代码中，通常这样导入：
复制代码
```
import pandas as pd  # 习惯简写为 pd
```

三、核心数据结构：Series 和 DataFrame

Pandas 有两个核心数据结构：

1. Series（一维数据）

类似一维数组或列表，但每个元素有一个索引（默认从0开始）。

复制代码

# 创建一个 Series
data = pd.Series([10, 20, 30, 40])
print(data)

输出：

复制代码

0    10
1    20
2    30
3    40
dtype: int64

2. DataFrame（二维表格）

类似 Excel 表格或 SQL 表，由行和列组成。

复制代码

# 创建一个 DataFrame
data = {
    "姓名": ["张三", "李四", "王五"],
    "年龄": [25, 30, 28],
    "城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
print(df)

输出：

复制代码

   姓名  年龄  城市
0  张三  25  北京
1  李四  30  上海
2  王五  28  广州

四、数据读取和写入

1. 读取 CSV 文件

复制代码

df = pd.read_csv("data.csv")  # 替换为你的文件路径

2. 读取 Excel 文件

复制代码

df = pd.read_excel("data.xlsx")

3. 写入 CSV 文件

复制代码

df.to_csv("new_data.csv", index=False)  # index=False 表示不保存行索引

五、查看数据

复制代码

df.head(3)   # 查看前3行
df.tail(2)   # 查看后2行
df.info()    # 查看数据基本信息（列名、数据类型、非空值数量）
df.describe()  # 统计数值列的均值、标准差、最大值等

六、数据选择

1. 选择列

复制代码

df["姓名"]      # 选择单列
df[["姓名", "年龄"]]  # 选择多列

2. 选择行

复制代码

df.iloc[0]     # 通过位置选择第1行
df.loc[0]      # 通过索引标签选择行（默认索引是数字，与 iloc 效果相同）
df[df["年龄"] > 25]  # 筛选年龄大于25的行

3. 选择特定位置

复制代码

df.iloc[0, 1]  # 第1行第2列的值（索引从0开始）

七、数据处理

1. 处理缺失值

复制代码

df.dropna()    # 删除包含缺失值的行
df.fillna(0)   # 用0填充缺失值

2. 数据排序

复制代码

df.sort_values("年龄", ascending=False)  # 按年龄降序排序

3. 新增列

复制代码

df["工资"] = [8000, 12000, 9500]  # 添加新列

4. 删除列

复制代码

df.drop("城市", axis=1, inplace=True)  # axis=1 表示列，inplace=True 直接修改原数据

八、数据聚合

复制代码

# 按城市分组，计算平均年龄
df.groupby("城市")["年龄"].mean()

# 更多聚合操作：sum(), max(), min(), count()

九、综合示例

假设有一个 CSV 文件 sales.csv，内容如下：

复制代码

日期,产品,销量
2023-01-01,A,100
2023-01-01,B,150
2023-01-02,A,200
2023-01-02,B,120

分析代码：

复制代码

import pandas as pd

# 读取数据
df = pd.read_csv("sales.csv")

# 计算每个产品的总销量
total_sales = df.groupby("产品")["销量"].sum()
print(total_sales)

# 筛选销量大于120的记录
high_sales = df[df["销量"] > 120]
print(high_sales)