零基础快速上手 Pandas 数据处理

前言

Pandas 是 Python 里处理表格数据最强的库，不管是做数据分析、机器学习、毕设、竞赛、报表，都离不开它。

一、安装 Pandas（一行命令）

打开终端 / CMD，运行：

复制代码

pip install pandas

二、导入 Pandas

复制代码

import pandas as pd

以后 pd 就代表 Pandas，这是行业通用写法。

三、两个核心概念

DataFrame ：整张表格（多行多列）
Series ：单独一列

四、创建 / 读取数据

1. 直接创建表格

python 复制代码

data = {
    "姓名": ["小明", "小红", "小刚"],
    "年龄": [20, 21, 19],
    "成绩": [85, 92, 78]
}

df = pd.DataFrame(data)

2. 读取 Excel / CSV

python 复制代码

# 读取 CSV
df = pd.read_csv("data.csv")

# 读取 Excel
df = pd.read_excel("data.xlsx")

五、快速查看数据（最常用）

python 复制代码

df.head()        # 看前5行
df.info()        # 查看数据类型、有无缺失值
df.describe()    # 自动计算：均值、最大最小、标准差
df.shape         # 查看行数、列数 (行,列)
df.columns       # 查看所有列名

六、取数据（列 / 行 / 单元格）

1. 取一列

python 复制代码

df["姓名"]

2. 取多列

复制代码

df[["姓名", "成绩"]]

3. 根据行号取行（iloc）

复制代码

df.iloc[0]    # 第一行
df.iloc[0:2]  # 前两行

4. 取某个单元格

复制代码

df.loc[0, "姓名"]  # 第0行，姓名列

七、条件筛选（超好用）

python 复制代码

# 筛选成绩大于80的
df[df["成绩"] > 80]

# 多条件：年龄20岁以上且成绩大于80
df[(df["年龄"] >= 20) & (df["成绩"] > 80)]

八、增加 / 删除 / 修改列

1. 增加一列

复制代码

df["城市"] = ["北京", "上海", "广州"]

2. 修改一列

复制代码

df["成绩"] = df["成绩"] + 5  # 所有人成绩+5

3. 删除一列

复制代码

df = df.drop("年龄", axis=1)

九、缺失值处理（实战必用）

python 复制代码

# 查看缺失值
df.isnull().sum()

# 填充缺失值
df.fillna(0)         # 用0填充
df.fillna(df.mean()) # 用均值填充

# 删除有缺失值的行
df.dropna()

十、统计计算

复制代码

df["成绩"].sum()    # 求和
df["成绩"].mean()   # 平均值
df["成绩"].max()    # 最大值
df["成绩"].min()    # 最小值
df["成绩"].count()  # 计数

十一、保存文件

复制代码

df.to_csv("新文件.csv", index=False)
df.to_excel("新文件.xlsx", index=False)

index=False 表示不保存行号。

十二、零基础总结（超级好记）

Pandas 就干 6 件事：

读数据：read_csv / read_excel
看数据：head / info / describe
取数据：列名、行号、筛选
改数据：增、删、改、填充
算数据：求和、平均、最大最小
存数据：to_csv / to_excel

学会这些，你已经能搞定 80% 的数据分析工作！