一、先搞懂:Pandas 是什么?
Pandas = Python 里的 Excel / 数据库表格 用来做:
- 读取 Excel / CSV / 数据库数据
- 筛选、过滤、查找数据
- 计算、统计、汇总
- 清洗、去重、缺失值处理
- 数据导出
两个核心概念:
- DataFrame(DF):整张表格(多行多列)
- Series:单列数据
二、安装 + 导入
pip install pandas
import pandas as pd
三、最常用 10 个操作(必背)
1. 创建表格
data = {
"姓名": ["小明", "小红", "小李"],
"年龄": [20, 21, 19],
"城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
2. 查看数据
df.head() # 前5行
df.head(3) # 前3行
df.info() # 查看列类型、是否为空
df.describe() # 自动统计(均值、最大最小等)
3. 读取文件
# 读取 CSV
df = pd.read_csv("数据.csv")
# 读取 Excel(需要 pip install openpyxl)
df = pd.read_excel("数据.xlsx")
# 读取后直接查看
df.head()
4. 选择列
df["姓名"] # 单列
df[["姓名", "年龄"]] # 多列
5. 筛选行(最常用!)
# 年龄大于20
df[df["年龄"] > 20]
# 城市等于北京
df[df["城市"] == "北京"]
# 多个条件
df[(df["年龄"]>19) & (df["城市"]=="北京")]
6. 新增 / 修改列
df["性别"] = "男" # 新增列,全部赋值男
df["年龄+1"] = df["年龄"] + 1 # 用计算结果生成列
7. 处理缺失值
df.isnull().sum() # 查看每列缺失数量
df.dropna() # 删除有空值的行
df.fillna(0) # 把空值填成0
8. 去重
df.drop_duplicates() # 去重
9. 排序
df.sort_values("年龄", ascending=False) # 降序
10. 保存文件
df.to_csv("新数据.csv", index=False)
df.to_excel("新数据.xlsx", index=False)
四、最简单实战案例(复制就能跑)
import pandas as pd
# 1. 创建数据
data = {
"产品": ["鱼", "贝壳", "虾", "章鱼"],
"来源": ["海洋", "海洋", "海洋", "海洋"],
"价格": [20, 15, 18, 25]
}
df = pd.DataFrame(data)
# 2. 筛选海洋来源
df_haiyang = df[df["来源"] == "海洋"]
# 3. 打印结果
print(df_haiyang)