Matplotlib/Seaborn：数据可视化

zyl837212026-06-05 10:16

一、先搞懂：Pandas 是什么？

Pandas = Python 里的 Excel / 数据库表格 用来做：

读取 Excel / CSV / 数据库数据
筛选、过滤、查找数据
计算、统计、汇总
清洗、去重、缺失值处理
数据导出

两个核心概念：

DataFrame（DF）：整张表格（多行多列）
Series：单列数据

二、安装 + 导入

复制代码

pip install pandas

import pandas as pd

三、最常用 10 个操作（必背）

1. 创建表格

复制代码

data = {
    "姓名": ["小明", "小红", "小李"],
    "年龄": [20, 21, 19],
    "城市": ["北京", "上海", "广州"]
}

df = pd.DataFrame(data)

2. 查看数据

复制代码

df.head()      # 前5行
df.head(3)     # 前3行
df.info()      # 查看列类型、是否为空
df.describe()  # 自动统计（均值、最大最小等）

3. 读取文件

复制代码

# 读取 CSV
df = pd.read_csv("数据.csv")

# 读取 Excel（需要 pip install openpyxl）
df = pd.read_excel("数据.xlsx")

# 读取后直接查看
df.head()

4. 选择列

复制代码

df["姓名"]        # 单列
df[["姓名", "年龄"]] # 多列

5. 筛选行（最常用！）

复制代码

# 年龄大于20
df[df["年龄"] > 20]

# 城市等于北京
df[df["城市"] == "北京"]

# 多个条件
df[(df["年龄"]>19) & (df["城市"]=="北京")]

6. 新增 / 修改列

复制代码

df["性别"] = "男"          # 新增列，全部赋值男
df["年龄+1"] = df["年龄"] + 1  # 用计算结果生成列

7. 处理缺失值

复制代码

df.isnull().sum()    # 查看每列缺失数量
df.dropna()          # 删除有空值的行
df.fillna(0)         # 把空值填成0

8. 去重

复制代码

df.drop_duplicates()  # 去重

9. 排序

复制代码

df.sort_values("年龄", ascending=False)  # 降序

10. 保存文件

复制代码

df.to_csv("新数据.csv", index=False)
df.to_excel("新数据.xlsx", index=False)

四、最简单实战案例（复制就能跑）

复制代码

import pandas as pd

# 1. 创建数据
data = {
    "产品": ["鱼", "贝壳", "虾", "章鱼"],
    "来源": ["海洋", "海洋", "海洋", "海洋"],
    "价格": [20, 15, 18, 25]
}
df = pd.DataFrame(data)

# 2. 筛选海洋来源
df_haiyang = df[df["来源"] == "海洋"]

# 3. 打印结果
print(df_haiyang)