零基础讲解pandas

一、Pandas 是什么?

Pandas 是 Python 中一个强大的数据分析库 ,专门用于处理表格数据​(类似 Excel 表格)。它的名字来源于 "Panel Data"(面板数据)。主要功能包括:

  • 数据读取/写入(支持 CSV、Excel、SQL 等格式)
  • 数据清洗(处理缺失值、重复值等)
  • 数据筛选、排序、聚合
  • 数据统计和分析

二、安装和导入

  1. 安装 Pandas ​(如果尚未安装):

    在命令行中输入:

    复制代码
    pip install pandas
  2. 导入库

    在 Python 代码中,通常这样导入:

    复制代码
    import pandas as pd  # 习惯简写为 pd

三、核心数据结构:Series 和 DataFrame

Pandas 有两个核心数据结构:

1. Series(一维数据)

类似一维数组或列表,但每个元素有一个索引(默认从0开始)。

复制代码
# 创建一个 Series
data = pd.Series([10, 20, 30, 40])
print(data)

输出:

复制代码
0    10
1    20
2    30
3    40
dtype: int64
2. DataFrame(二维表格)

类似 Excel 表格或 SQL 表,由行和列组成。

复制代码
# 创建一个 DataFrame
data = {
    "姓名": ["张三", "李四", "王五"],
    "年龄": [25, 30, 28],
    "城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
print(df)

输出:

复制代码
   姓名  年龄  城市
0  张三  25  北京
1  李四  30  上海
2  王五  28  广州

四、数据读取和写入

1. 读取 CSV 文件
复制代码
df = pd.read_csv("data.csv")  # 替换为你的文件路径
2. 读取 Excel 文件
复制代码
df = pd.read_excel("data.xlsx")
3. 写入 CSV 文件
复制代码
df.to_csv("new_data.csv", index=False)  # index=False 表示不保存行索引

五、查看数据

复制代码
df.head(3)   # 查看前3行
df.tail(2)   # 查看后2行
df.info()    # 查看数据基本信息(列名、数据类型、非空值数量)
df.describe()  # 统计数值列的均值、标准差、最大值等

六、数据选择

1. 选择列
复制代码
df["姓名"]      # 选择单列
df[["姓名", "年龄"]]  # 选择多列
2. 选择行
复制代码
df.iloc[0]     # 通过位置选择第1行
df.loc[0]      # 通过索引标签选择行(默认索引是数字,与 iloc 效果相同)
df[df["年龄"] > 25]  # 筛选年龄大于25的行
3. 选择特定位置
复制代码
df.iloc[0, 1]  # 第1行第2列的值(索引从0开始)

七、数据处理

1. 处理缺失值
复制代码
df.dropna()    # 删除包含缺失值的行
df.fillna(0)   # 用0填充缺失值
2. 数据排序
复制代码
df.sort_values("年龄", ascending=False)  # 按年龄降序排序
3. 新增列
复制代码
df["工资"] = [8000, 12000, 9500]  # 添加新列
4. 删除列
复制代码
df.drop("城市", axis=1, inplace=True)  # axis=1 表示列,inplace=True 直接修改原数据

八、数据聚合

复制代码
# 按城市分组,计算平均年龄
df.groupby("城市")["年龄"].mean()

# 更多聚合操作:sum(), max(), min(), count()

九、综合示例

假设有一个 CSV 文件 sales.csv,内容如下:

复制代码
日期,产品,销量
2023-01-01,A,100
2023-01-01,B,150
2023-01-02,A,200
2023-01-02,B,120

分析代码:

复制代码
import pandas as pd

# 读取数据
df = pd.read_csv("sales.csv")

# 计算每个产品的总销量
total_sales = df.groupby("产品")["销量"].sum()
print(total_sales)

# 筛选销量大于120的记录
high_sales = df[df["销量"] > 120]
print(high_sales)
相关推荐
0白露32 分钟前
Apifox Helper 与 Swagger3 区别
开发语言
Tanecious.1 小时前
机器视觉--python基础语法
开发语言·python
叠叠乐2 小时前
rust Send Sync 以及对象安全和对象不安全
开发语言·安全·rust
ALe要立志成为web糕手2 小时前
SESSION_UPLOAD_PROGRESS 的利用
python·web安全·网络安全·ctf
Tttian6223 小时前
Python办公自动化(3)对Excel的操作
开发语言·python·excel
蹦蹦跳跳真可爱5894 小时前
Python----机器学习(KNN:使用数学方法实现KNN)
人工智能·python·机器学习
独好紫罗兰4 小时前
洛谷题单2-P5713 【深基3.例5】洛谷团队系统-python-流程图重构
开发语言·python·算法
闪电麦坤955 小时前
C#:base 关键字
开发语言·c#
Mason Lin5 小时前
2025年3月29日(matlab -ss -lti)
开发语言·matlab
DREAM.ZL6 小时前
基于python的电影数据分析及可视化系统
开发语言·python·数据分析