【Python实战】用Pandas轻松实现Excel数据清洗与可视化

一、前言:告别手动处理Excel的烦恼

在日常工作中,Excel数据处理是许多开发者、数据分析师的"必修课"。但面对重复性的数据清洗、格式转换和报表生成,手动操作不仅效率低下,还容易出错。本文将通过Python的Pandas库,教你3行代码批量处理Excel文件,并利用Matplotlib自动生成可视化图表。


二、环境准备

1. 安装必备库

python

复制代码
pip install pandas openpyxl matplotlib
  • pandas:数据处理核心库

  • openpyxl:支持Excel 2010+文件格式

  • matplotlib:数据可视化工具

2. 示例数据(sales_data.xlsx)

订单ID 日期 销售额 地区
1001 2023-01-05 1500 北京
1002 2023-01-12 NaN 上海
... ... ... ...

三、实战步骤

1. 快速读取与合并Excel文件

复制代码
import pandas as pd

# 读取单个文件
df = pd.read_excel("sales_data.xlsx", sheet_name="Sheet1")

# 批量合并文件夹下所有Excel
import os
all_files = [f for f in os.listdir("./data") if f.endswith(".xlsx")]
combined_df = pd.concat([pd.read_excel(f) for f in all_files])

2. 数据清洗四步法

复制代码
# 处理缺失值
df['销售额'].fillna(df['销售额'].mean(), inplace=True)

# 删除重复行
df.drop_duplicates(subset=['订单ID'], keep='first', inplace=True)

# 类型转换
df['日期'] = pd.to_datetime(df['日期'])

# 异常值过滤
df = df[(df['销售额'] > 0) & (df['销售额'] < 100000)]

3. 高级操作:数据透视与分组统计

复制代码
# 按地区统计月销售额
pivot_table = df.pivot_table(
    index=df['日期'].dt.month,
    columns='地区',
    values='销售额',
    aggfunc='sum'
)

# 输出结果
print(pivot_table.to_markdown())  # 转为Markdown格式方便博客插入

4. 自动化可视化(Matplotlib集成)

复制代码
import matplotlib.pyplot as plt

# 绘制各地区销售额趋势
df.groupby(['地区', df['日期'].dt.month])['销售额'].sum().unstack().plot(
    kind='line',
    marker='o',
    figsize=(10,6)
)

plt.title('2023年度各地区月度销售趋势')
plt.xlabel('月份')
plt.ylabel('销售额(万元)')
plt.grid(True)
plt.savefig('sales_trend.png')  # 保存图表

四、效率对比

操作项 传统手动处理 Python自动化
10个文件合并 30分钟 5秒
数据清洗 易出错 精准处理
生成月报图表 1小时 10秒

五、避坑指南

  1. 编码问题 :遇到中文乱码时添加engine='openpyxl'

  2. 内存优化 :大数据集使用chunksize参数分块读取

  3. 样式保留 :需要保留原格式时推荐xlwings


六、完整代码获取

👉 关注博主,私信回复【Excel自动化】获取本文完整代码+测试数据集!


七、结语

通过本文,我们见证了Python在数据处理中的强大威力。掌握Pandas不仅能提升工作效率,更能将重复劳动转化为创造性工作。你的下一个Excel插件,何必是VBA?

拓展学习


标签Python 数据分析 办公自动化 Pandas Excel技巧

相关推荐
yaoh.wang5 小时前
力扣(LeetCode) 13: 罗马数字转整数 - 解法思路
python·程序人生·算法·leetcode·面试·职场和发展·跳槽
小鸡吃米…6 小时前
Python PyQt6教程七-控件
数据库·python
1916zz7 小时前
Extreme programing 方利喆 _ 江贤晟
python
长安牧笛7 小时前
智能鞋柜—脚气终结者,内置温湿度传感器和紫外线灯,晚上回家,把鞋放进去,自动检测湿度,湿度超标就启动烘干+紫外线杀菌,第二天穿鞋干燥无异味。
python
weixin_457760007 小时前
PIL库将图片位深度是1、8、32统一转换为24的方法
python
Lucky高8 小时前
Pandas库入门
python·pandas
小鸡吃米…8 小时前
Python PyQt6教程三-菜单与工具栏
开发语言·python
Jack电子实验室9 小时前
【杭电HDU】校园网(DeepL/Srun)自动登录教程
python·嵌入式硬件·计算机网络·自动化
木头左9 小时前
二值化近似计算在量化交易策略中降低遗忘门运算复杂度
python
Jelena157795857929 小时前
Java爬虫淘宝拍立淘item_search_img拍接口示例代码
开发语言·python