python学习之通过pandas处理excel和csv数据

一.pandas的核心概念

pandas 核心概念 功能描述 Java 类比
Series 一维带标签的数据(比如一列数据) Java 的List<Object> + 索引(下标)
DataFrame 二维带标签的数据(比如 Excel 表格) Java 的二维数组/List<Map<String, Object>>(行 = 数据行,列 = 字段)
索引(Index) 行 / 列的唯一标识 Java 中数组的下标 / Map 的 Key
数据清洗 处理空值、重复值、异常值 Java 中遍历集合过滤无效数据
分组统计(groupby) 按字段分组计算(比如按部门统计销售额) Java 中遍历集合 + Map 分组累加

简单说:pandas 就是「Python 版的 Excel + 数据库」,核心是对「表格型数据」做「读取→清洗→分析→输出」

二.pandas的常用操作

1.数据读取

python 复制代码
import pandas as pd

# 读取CSV文件(内网本地文件,比如销售数据)
df = pd.read_csv("D:/sales_data.csv")
# 读取Excel文件(需先装openpyxl:pip install openpyxl)
df = pd.read_excel("D:/sales_data.xlsx", sheet_name="2024销售数据")

# 查看数据(快速了解数据结构)
print(df.head())  # 看前5行(类比Excel预览)
print(df.info())  # 看数据类型、空值(核心!排查数据问题)
print(df.describe())  # 看数值列的统计信息(均值、最大值等)

2.选择数据(取行 / 列 / 条件筛选,最常用)

python 复制代码
# 1. 选单列(比如选「销售额」列)
sales_series = df["销售额"]

# 2. 选多列(比如选「日期」「部门」「销售额」)
df_sub = df[["日期", "部门", "销售额"]]

# 3. 条件筛选(比如选「销售额>1000」的行)
df_filter = df[df["销售额"] > 1000]

# 4. 按内存物理位置行号选(前10行,不包括第10行)
df_head10 = df.iloc[0:10]

# 5. 按标签行号选,默认为0,1,2开始(前11行,包括第11行)
df_head10 = df.iloc[0:10]

# 6.按内存物理位置选择第1行第2列
var=df[0,1]

3.数据清洗(处理脏数据,数据分析的核心步骤)

python 复制代码
# 1. 处理空值(两种方式:删除/填充)
df = df.dropna()  # 删除含空值的行(简单粗暴)
df["销售额"] = df["销售额"].fillna(0)  # 空值填充为0

# 2. 处理重复值
df = df.drop_duplicates()  # 删除重复行

# 3. 数据类型转换(比如把「日期」列转成日期类型)
df["日期"] = pd.to_datetime(df["日期"])

# 4. 列重命名(把「销售金额」改成「销售额」)
df = df.rename(columns={"销售金额": "销售额"})

4.分组统计(按维度分析,比如按部门统计)

python 复制代码
# 按「部门」分组,统计销售额的总和、均值
dept_stats = df.groupby("部门")["销售额"].agg(["sum", "mean"])
print(dept_stats)

# 按「月份+部门」分组(先提取月份)
df["月份"] = df["日期"].dt.month
month_dept_stats = df.groupby(["月份", "部门"])["销售额"].sum()
print(month_dept_stats)

5.数据输出(把分析结果存文件)

python 复制代码
# 把统计结果存为Excel(内网可查看)
dept_stats.to_excel("D:/部门销售统计.xlsx",index=False)
# 存为CSV
month_dept_stats.to_csv("D:/月度部门销售统计.csv",index=False)
相关推荐
godspeed_lucip7 小时前
LLM和Agent——专题5: LLM Ops 入门(2)
人工智能·python
技术钱7 小时前
RAG 开发 6 个阶段优化策略分析
python
QFIUNE7 小时前
使用 MMseqs2 计算多个 DTI 数据集的蛋白序列相似度
linux·python·ubuntu
念恒123067 小时前
Python 函数完全指南:定义与调用
开发语言·python
大数据魔法师7 小时前
Streamlit(十二)- API 参考文档(五)- 输入组件
python·web
涛声依旧-底层原理研究所7 小时前
Node.js在高并发低延迟场景中的优势
java·人工智能·python·node.js
凯丨7 小时前
200 行 Python 训练一个 GPT:Karpathy 的极简主义 AI 教育实验
人工智能·python·gpt
Mr. zhihao7 小时前
BM25 混合检索详解:为什么向量检索不够,还要加一个关键词检索
python·rag·bm25
悟乙己7 小时前
python DoWhy 库使用案例: SaaS 公司的客服案例
开发语言·python
在学了加油7 小时前
Inception v1学习笔记
笔记·python·学习