前言
Pandas 是 Python 里处理表格数据最强的库,不管是做数据分析、机器学习、毕设、竞赛、报表,都离不开它。
一、安装 Pandas(一行命令)
打开终端 / CMD,运行:
pip install pandas
二、导入 Pandas
import pandas as pd
以后 pd 就代表 Pandas,这是行业通用写法。
三、两个核心概念
- DataFrame :整张表格(多行多列)
- Series :单独一列
四、创建 / 读取数据
1. 直接创建表格
python
data = {
"姓名": ["小明", "小红", "小刚"],
"年龄": [20, 21, 19],
"成绩": [85, 92, 78]
}
df = pd.DataFrame(data)
2. 读取 Excel / CSV
python
# 读取 CSV
df = pd.read_csv("data.csv")
# 读取 Excel
df = pd.read_excel("data.xlsx")
五、快速查看数据(最常用)
python
df.head() # 看前5行
df.info() # 查看数据类型、有无缺失值
df.describe() # 自动计算:均值、最大最小、标准差
df.shape # 查看行数、列数 (行,列)
df.columns # 查看所有列名
六、取数据(列 / 行 / 单元格)
1. 取一列
python
df["姓名"]
2. 取多列
df[["姓名", "成绩"]]
3. 根据行号取行(iloc)
df.iloc[0] # 第一行
df.iloc[0:2] # 前两行
4. 取某个单元格
df.loc[0, "姓名"] # 第0行,姓名列
七、条件筛选(超好用)
python
# 筛选成绩大于80的
df[df["成绩"] > 80]
# 多条件:年龄20岁以上且成绩大于80
df[(df["年龄"] >= 20) & (df["成绩"] > 80)]
八、增加 / 删除 / 修改列
1. 增加一列
df["城市"] = ["北京", "上海", "广州"]
2. 修改一列
df["成绩"] = df["成绩"] + 5 # 所有人成绩+5
3. 删除一列
df = df.drop("年龄", axis=1)
九、缺失值处理(实战必用)
python
# 查看缺失值
df.isnull().sum()
# 填充缺失值
df.fillna(0) # 用0填充
df.fillna(df.mean()) # 用均值填充
# 删除有缺失值的行
df.dropna()
十、统计计算
df["成绩"].sum() # 求和
df["成绩"].mean() # 平均值
df["成绩"].max() # 最大值
df["成绩"].min() # 最小值
df["成绩"].count() # 计数
十一、保存文件
df.to_csv("新文件.csv", index=False)
df.to_excel("新文件.xlsx", index=False)
index=False 表示不保存行号。
十二、零基础总结(超级好记)
Pandas 就干 6 件事:
- 读数据:read_csv / read_excel
- 看数据:head / info / describe
- 取数据:列名、行号、筛选
- 改数据:增、删、改、填充
- 算数据:求和、平均、最大最小
- 存数据:to_csv / to_excel
学会这些,你已经能搞定 80% 的数据分析工作!