从零开始学 Pandas：数据处理核心操作指南

一、数据的导入与导出：数据处理的第一步

[1. 读取不同格式的文件](#1. 读取不同格式的文件)

[2. 数据导出](#2. 数据导出)

二、数据清洗：让数据更 "干净"

[1. 缺失值处理](#1. 缺失值处理)

[2. 重复值处理](#2. 重复值处理)

三、数据抽取与转换：精准获取所需信息

[1. 条件抽取](#1. 条件抽取)

[2. 字符串截取：slice 函数](#2. 字符串截取：slice 函数)

[3. 数据计算](#3. 数据计算)

四、数据合并：整合多源信息

[1. 列的合并](#1. 列的合并)

[2. 数据框的合并](#2. 数据框的合并)

五、高级处理：抽样、标准化与分组

[1. 随机抽样](#1. 随机抽样)

[2. 数据标准化](#2. 数据标准化)

[3. 数据分组](#3. 数据分组)

在数据分析领域，Pandas 库无疑是 Python 生态中最强大的工具之一。它以简洁的语法和高效的性能，成为数据清洗、转换、分析的首选工具。本文将结合实际代码案例，带你系统学习 Pandas 的核心操作，从数据导入到高级处理，逐步掌握数据处理的全流程。

一、数据的导入与导出：数据处理的第一步

任何数据分析都始于数据的获取，Pandas 提供了丰富的函数支持多种格式文件的读写，让数据导入导出变得简单高效。

1. 读取不同格式的文件

CSV 文件 ：使用read_csv函数，支持指定编码（如utf-8、gbk）和引擎参数。当数据包含中文时，encoding='gbk'是常见选择。

python 复制代码

import pandas as pd
# 读取带表头的CSV
df1 = pd.read_csv("data1.csv")
# 读取无表头的CSV（指定header=None）
df2 = pd.read_csv("data2.csv", encoding='utf8', engine='python', header=None)

Excel 文件 ：通过read_excel直接读取.xlsx 文件：
python 复制代码
```
df3 = pd.read_excel("data3.xlsx")
```
TXT 文件 ：使用read_table，需指定分隔符（如逗号分隔的 txt 可用sep=','）：
python 复制代码
```
df4 = pd.read_table("data4.txt", sep=',', header=None)
```

2. 数据导出

处理完成的数据可通过to_csv和to_excel导出，index和header参数控制是否保留行索引和列名：

python 复制代码

# 导出为CSV
df1.to_csv("导出.csv", index=True, header=True)
# 导出为Excel
df1.to_excel("导出.xlsx", index=True, header=True)

二、数据清洗：让数据更 "干净"

原始数据往往存在缺失值、重复值等问题，直接分析会导致结果偏差。Pandas 提供了针对性的处理工具，让数据清洗事半功倍。

1. 缺失值处理

缺失值是数据中最常见的问题，Pandas 提供了三种核心处理思路：

识别缺失值 ：用isnull()判断空值位置，结合any(axis=1)可定位包含空值的行：

python 复制代码

# 判断空值位置
na = df.isnull()
# 提取含空值的行
df[na.any(axis=1)]
# 提取特定列含空值的行（如gender列）
df[na[['gender']].any(axis=1)]

填充缺失值 ：使用fillna用指定值（如字符串、数值）填充空值：
python 复制代码
```
# 用'1'填充所有缺失值
df1 = df.fillna('1')
```
删除缺失值 ：通过dropna删除包含空值的行（默认删除任何含空值的行）：
python 复制代码
```
# 删除所有含空值的行
df2 = df.dropna()
```

2. 重复值处理

重复数据会干扰分析结果，需先识别再处理：

识别重复值 ：duplicated()返回布尔值判断是否重复，支持按特定列判断：

python 复制代码

# 判断全行重复
result1 = df.duplicated()
# 按gender列判断重复
result2 = df.duplicated('gender')
# 按gender和name列联合判断重复
result3 = df.duplicated(['gender', 'name'])

删除重复值 ：drop_duplicates可删除重复行，同样支持按列筛选：

python 复制代码

# 删除全行重复的行
new_df1 = df.drop_duplicates()
# 按name和gender列删除重复行
new_df2 = df.drop_duplicates(['name', 'gender'])

三、数据抽取与转换：精准获取所需信息

数据清洗后，需根据分析目标抽取关键信息，或对数据进行转换处理。

1. 条件抽取

通过逻辑判断筛选符合条件的数据，是数据分析的基础操作：

比较运算：如筛选好评数大于 17000 的记录，或在某个区间内的记录：

python 复制代码

# 好评数>17000
df[df['好评数'] > 17000]
# 好评数在15000-17000之间
df[df['好评数'].between(15000, 17000)]

字符匹配 ：用str.contains筛选包含特定字符的记录（na=False忽略空值）：
python 复制代码
```
# 筛选品牌含"苹果"的记录
df[df['品牌'].str.contains('苹果', na=False)]
```
逻辑运算 ：结合&（且）、|（或）实现多条件筛选：
python 复制代码
```
# 价格<7000且好评数>16000
df[(df['价格']<7000) & (df['好评数'] > 16000)]
```

2. 字符串截取：slice 函数

对字符串类型数据，可通过str.slice截取指定位置的字符，例如从身份证号中提取信息：

python 复制代码

# 将id转为字符串类型（避免数值截取错误）
df['id'] = df['id'].astype(str)
# 提取前6位（地址码）
area = df['id'].str.slice(0, 6)
# 提取6-14位（出生日期码）
birthday = df['id'].str.slice(6, 14)

3. 数据计算

Pandas 支持直接对列进行算术运算，快速生成新指标：

python 复制代码

# 计算总价（单价×数量）
df['总价'] = df['单价'] * df['数量']

四、数据合并：整合多源信息

实际分析中，数据往往分散在多个表格中，需通过合并操作整合为完整数据集。

1. 列的合并

通过+直接拼接多个列，生成新列（需确保列类型一致，通常转为字符串）：

python 复制代码

# 将area、birthday等列拼接为id
df = df.astype(str)
df['id'] = df['area'] + df['birthday'] + df['ranking'] + df['only']

2. 数据框的合并

concat 函数 ：支持横向（axis=1）或竖向（默认axis=0）合并，join参数控制交集（inner）或并集（outer）：

python 复制代码

# 竖向合并（行拼接）
new_df1 = pd.concat([df2, df1])
# 横向合并（列拼接），取交集
new_df3 = pd.concat([df1, df3], axis=1, join='inner')

merge 函数：按指定键（如姓名）合并，支持内连接、左连接、右连接、外连接：

python 复制代码

# 按name内连接（仅保留双方都有的name）
df3 = pd.merge(df1, df2, left_on='name', right_on='name')
# 左连接（保留df1所有name）
df4 = pd.merge(df1, df2, left_on='name', right_on='name', how='left')

五、高级处理：抽样、标准化与分组

1. 随机抽样

通过sample函数实现随机抽样，支持按个数（n）或比例（frac）抽样，replace控制是否有放回：

python 复制代码

import numpy as np
# 设置随机种子（保证结果可复现）
np.random.seed(seed=2)
# 按个数不放回抽样（10条）
df.sample(n=10)
# 按比例有放回抽样（20%）
new_df = df.sample(frac=0.2, replace=True)

2. 数据标准化

为消除不同指标的量纲影响，需进行标准化处理，常见方法有：

0~1 标准化：将数据映射到 $0,1$ 区间：

python 复制代码

# 国内生产总值0~1标准化
df1['国内生产总值0~1标准化'] = round(
    (df1.国内生产总值 - df1.国内生产总值.min()) / 
    (df1.国内生产总值.max() - df1.国内生产总值.min()), 2
)

Z 标准化：将数据转换为均值为 0、方差为 1 的分布：

python 复制代码

# 国内生产总值Z标准化
df1['国内生产总值Z标准化'] = round(
    (df1.国内生产总值 - df1.国内生产总值.mean()) / 
    df1.国内生产总值.std(), 2
)

3. 数据分组

用cut函数将连续数据离散化（分组），需指定分组边界（bins）和标签（labels）：

python 复制代码

# 定义人均GDP分组边界
bins = [min(df.人均GDP)-1, 2000, 4000, 6000, 8000, max(df.人均GDP)+1]
# 自定义分组标签
labels = ['2000以下', '2001~4000', '4001~6000', '6001~8000', '8000以上']
# 分组并添加到数据框
df['人均GDP分组'] = pd.cut(df.人均GDP, bins, labels=labels)