零基础讲解pandas

一、Pandas 是什么?

Pandas 是 Python 中一个强大的数据分析库 ,专门用于处理表格数据​(类似 Excel 表格)。它的名字来源于 "Panel Data"(面板数据)。主要功能包括:

  • 数据读取/写入(支持 CSV、Excel、SQL 等格式)
  • 数据清洗(处理缺失值、重复值等)
  • 数据筛选、排序、聚合
  • 数据统计和分析

二、安装和导入

  1. 安装 Pandas ​(如果尚未安装):

    在命令行中输入:

    复制代码
    pip install pandas
  2. 导入库

    在 Python 代码中,通常这样导入:

    复制代码
    import pandas as pd  # 习惯简写为 pd

三、核心数据结构:Series 和 DataFrame

Pandas 有两个核心数据结构:

1. Series(一维数据)

类似一维数组或列表,但每个元素有一个索引(默认从0开始)。

复制代码
# 创建一个 Series
data = pd.Series([10, 20, 30, 40])
print(data)

输出:

复制代码
0    10
1    20
2    30
3    40
dtype: int64
2. DataFrame(二维表格)

类似 Excel 表格或 SQL 表,由行和列组成。

复制代码
# 创建一个 DataFrame
data = {
    "姓名": ["张三", "李四", "王五"],
    "年龄": [25, 30, 28],
    "城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
print(df)

输出:

复制代码
   姓名  年龄  城市
0  张三  25  北京
1  李四  30  上海
2  王五  28  广州

四、数据读取和写入

1. 读取 CSV 文件
复制代码
df = pd.read_csv("data.csv")  # 替换为你的文件路径
2. 读取 Excel 文件
复制代码
df = pd.read_excel("data.xlsx")
3. 写入 CSV 文件
复制代码
df.to_csv("new_data.csv", index=False)  # index=False 表示不保存行索引

五、查看数据

复制代码
df.head(3)   # 查看前3行
df.tail(2)   # 查看后2行
df.info()    # 查看数据基本信息(列名、数据类型、非空值数量)
df.describe()  # 统计数值列的均值、标准差、最大值等

六、数据选择

1. 选择列
复制代码
df["姓名"]      # 选择单列
df[["姓名", "年龄"]]  # 选择多列
2. 选择行
复制代码
df.iloc[0]     # 通过位置选择第1行
df.loc[0]      # 通过索引标签选择行(默认索引是数字,与 iloc 效果相同)
df[df["年龄"] > 25]  # 筛选年龄大于25的行
3. 选择特定位置
复制代码
df.iloc[0, 1]  # 第1行第2列的值(索引从0开始)

七、数据处理

1. 处理缺失值
复制代码
df.dropna()    # 删除包含缺失值的行
df.fillna(0)   # 用0填充缺失值
2. 数据排序
复制代码
df.sort_values("年龄", ascending=False)  # 按年龄降序排序
3. 新增列
复制代码
df["工资"] = [8000, 12000, 9500]  # 添加新列
4. 删除列
复制代码
df.drop("城市", axis=1, inplace=True)  # axis=1 表示列,inplace=True 直接修改原数据

八、数据聚合

复制代码
# 按城市分组,计算平均年龄
df.groupby("城市")["年龄"].mean()

# 更多聚合操作:sum(), max(), min(), count()

九、综合示例

假设有一个 CSV 文件 sales.csv,内容如下:

复制代码
日期,产品,销量
2023-01-01,A,100
2023-01-01,B,150
2023-01-02,A,200
2023-01-02,B,120

分析代码:

复制代码
import pandas as pd

# 读取数据
df = pd.read_csv("sales.csv")

# 计算每个产品的总销量
total_sales = df.groupby("产品")["销量"].sum()
print(total_sales)

# 筛选销量大于120的记录
high_sales = df[df["销量"] > 120]
print(high_sales)
相关推荐
亿牛云爬虫专家1 小时前
Kubernetes下的分布式采集系统设计与实战:趋势监测失效引发的架构进化
分布式·python·架构·kubernetes·爬虫代理·监测·采集
iCxhust3 小时前
c# U盘映像生成工具
开发语言·单片机·c#
yangzhi_emo4 小时前
ES6笔记2
开发语言·前端·javascript
emplace_back5 小时前
C# 集合表达式和展开运算符 (..) 详解
开发语言·windows·c#
jz_ddk5 小时前
[学习] C语言数学库函数背后的故事:`double erf(double x)`
c语言·开发语言·学习
萧曵 丶5 小时前
Rust 所有权系统:深入浅出指南
开发语言·后端·rust
xiaolang_8616_wjl5 小时前
c++文字游戏_闯关打怪2.0(开源)
开发语言·c++·开源
收破烂的小熊猫~5 小时前
《Java修仙传:从凡胎到码帝》第四章:设计模式破万法
java·开发语言·设计模式
蹦蹦跳跳真可爱5895 小时前
Python----OpenCV(图像増强——高通滤波(索贝尔算子、沙尔算子、拉普拉斯算子),图像浮雕与特效处理)
人工智能·python·opencv·计算机视觉