一、Pandas 是什么?
Pandas 是 Python 中一个强大的数据分析库 ,专门用于处理表格数据(类似 Excel 表格)。它的名字来源于 "Panel Data"(面板数据)。主要功能包括:
- 数据读取/写入(支持 CSV、Excel、SQL 等格式)
- 数据清洗(处理缺失值、重复值等)
- 数据筛选、排序、聚合
- 数据统计和分析
二、安装和导入
-
安装 Pandas (如果尚未安装):
在命令行中输入:
pip install pandas
-
导入库 :
在 Python 代码中,通常这样导入:
import pandas as pd # 习惯简写为 pd
三、核心数据结构:Series 和 DataFrame
Pandas 有两个核心数据结构:
1. Series(一维数据)
类似一维数组或列表,但每个元素有一个索引(默认从0开始)。
# 创建一个 Series
data = pd.Series([10, 20, 30, 40])
print(data)
输出:
0 10
1 20
2 30
3 40
dtype: int64
2. DataFrame(二维表格)
类似 Excel 表格或 SQL 表,由行和列组成。
# 创建一个 DataFrame
data = {
"姓名": ["张三", "李四", "王五"],
"年龄": [25, 30, 28],
"城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
print(df)
输出:
姓名 年龄 城市
0 张三 25 北京
1 李四 30 上海
2 王五 28 广州
四、数据读取和写入
1. 读取 CSV 文件
df = pd.read_csv("data.csv") # 替换为你的文件路径
2. 读取 Excel 文件
df = pd.read_excel("data.xlsx")
3. 写入 CSV 文件
df.to_csv("new_data.csv", index=False) # index=False 表示不保存行索引
五、查看数据
df.head(3) # 查看前3行
df.tail(2) # 查看后2行
df.info() # 查看数据基本信息(列名、数据类型、非空值数量)
df.describe() # 统计数值列的均值、标准差、最大值等
六、数据选择
1. 选择列
df["姓名"] # 选择单列
df[["姓名", "年龄"]] # 选择多列
2. 选择行
df.iloc[0] # 通过位置选择第1行
df.loc[0] # 通过索引标签选择行(默认索引是数字,与 iloc 效果相同)
df[df["年龄"] > 25] # 筛选年龄大于25的行
3. 选择特定位置
df.iloc[0, 1] # 第1行第2列的值(索引从0开始)
七、数据处理
1. 处理缺失值
df.dropna() # 删除包含缺失值的行
df.fillna(0) # 用0填充缺失值
2. 数据排序
df.sort_values("年龄", ascending=False) # 按年龄降序排序
3. 新增列
df["工资"] = [8000, 12000, 9500] # 添加新列
4. 删除列
df.drop("城市", axis=1, inplace=True) # axis=1 表示列,inplace=True 直接修改原数据
八、数据聚合
# 按城市分组,计算平均年龄
df.groupby("城市")["年龄"].mean()
# 更多聚合操作:sum(), max(), min(), count()
九、综合示例
假设有一个 CSV 文件 sales.csv
,内容如下:
日期,产品,销量
2023-01-01,A,100
2023-01-01,B,150
2023-01-02,A,200
2023-01-02,B,120
分析代码:
import pandas as pd
# 读取数据
df = pd.read_csv("sales.csv")
# 计算每个产品的总销量
total_sales = df.groupby("产品")["销量"].sum()
print(total_sales)
# 筛选销量大于120的记录
high_sales = df[df["销量"] > 120]
print(high_sales)