数据分析实战案例:使用 Pandas 和 Matplotlib 进行居民用水

原创 IT小本本 IT小本本 2025年04月15日 18:31 北京

本文将使用 MatplotlibSeaborn 进行数据可视化。探索如何清理数据、计算月度用水量并生成有价值的统计图表,以便更好地理解居民的用水情况。


数据处理与清理

读取 Excel 文件

首先,我们使用 pandas 读取 Excel 文件,以获取居民每日用水数据:

复制代码
excel_file = '居民用水统计.xlsx'
water_usage_df = pd.read_excel(excel_file)

居民用水统计.xlsx:

为了确保日期数据正确解析,我们转换 日期 列为日期格式,并处理异常值:

复制代码
water_usage_df['日期'] = pd.to_datetime(water_usage_df['日期'], errors='coerce')

如果有无效日期,系统会标记为 NaT (Not a Time),并进行检查:

复制代码
if water_usage_df['日期'].isnull().any():
    print("发现无效日期,已将其处理为 NaT。请检查数据。")
    print(water_usage_df[water_usage_df['日期'].isnull()])

这样,我们就能确保数据的完整性,为后续分析做好准备。


计算居民每月用水量

为了分析不同月份的用水情况,我们按照月份对数据进行分组,并计算每月的总用水量:

复制代码
monthly_usage_df = water_usage_df.groupby(pd.to_datetime(water_usage_df['日期']).dt.to_period('M')).sum(numeric_only=True)
monthly_usage_df = monthly_usage_df.reset_index()
monthly_usage_df['月份'] = monthly_usage_df['日期'].dt.strftime('%Y-%m')
monthly_usage_df = monthly_usage_df.drop(columns=['日期'])

最终,我们可以打印月度汇总数据:

复制代码
print("\n每月居民用水量:\n", monthly_usage_df)

此外,我们可以使用 describe() 生成数据的基本统计信息,如均值、中位数等:

复制代码
summary_stats = monthly_usage_df.describe()
print("\n统计分析:\n", summary_stats)

这些统计数据能够帮助我们发现居民的用水趋势,例如是否有用水高峰期或异常用水情况。


数据可视化

设置 Matplotlib 字体

由于数据中包含中文,需要在 Matplotlib 里指定字体:

复制代码
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False  # 处理负号显示

每月用水量柱状图

为了更直观地展示用水情况,我们绘制柱状图:

复制代码
plt.figure(figsize=(12, 6))
monthly_usage_df.set_index('月份').plot(kind='bar', figsize=(12, 6), alpha=0.7)
plt.title('居民每月总用水量 (2023年)')
plt.xlabel('月份')
plt.ylabel('总用水量 (升)')
plt.xticks(rotation=45)
plt.legend(title='居民')
plt.grid(axis='y')
plt.tight_layout()
plt.savefig('每月用水统计图.png')
plt.show()

这张图能够帮助我们快速识别哪几个月的用水量最高或最低,为城市管理者提供参考。

用水量分布图

除了柱状图,我们还可以使用 Seaborn 绘制每日用水量的分布情况:

复制代码
plt.figure(figsize=(12, 6))
sns.boxplot(data=water_usage_df.iloc[:, 1:])  # 提取居民用水数据
plt.title('居民每日用水量分布图')
plt.xlabel('居民')
plt.ylabel('用水量 (升)')
plt.xticks(rotation=45)
plt.grid(axis='y')
plt.tight_layout()
plt.savefig('居民每日用水量分布图.png')
plt.show()

箱型图可以帮助我们发现不同居民用水习惯的变化,并检测是否存在异常值。


🔮 源码获取

相关推荐
计算机编程小央姐4 天前
跟上大数据时代步伐:食物营养数据可视化分析系统技术前沿解析
大数据·hadoop·信息可视化·spark·django·课程设计·食物
CodeCraft Studio4 天前
【案例分享】TeeChart 助力 Softdrill 提升油气钻井数据可视化能力
信息可视化·数据可视化·teechart·油气钻井·石油勘探数据·测井数据
招风的黑耳4 天前
赋能高效设计:12套中后台管理信息系统通用原型框架
信息可视化·axure后台模板·原型模板
程思扬4 天前
利用JSONCrack与cpolar提升数据可视化及跨团队协作效率
网络·人工智能·经验分享·docker·信息可视化·容器·架构
路人与大师4 天前
【Mermaid.js】从入门到精通:完美处理节点中的空格、括号和特殊字符
开发语言·javascript·信息可视化
云天徽上5 天前
【数据可视化-112】使用PyEcharts绘制TreeMap(矩形树图)完全指南及电商销售数据TreeMap绘制实战
开发语言·python·信息可视化·数据分析·pyecharts
kaomiao20255 天前
空间信息与数字技术和传统GIS专业有何不同?
大数据·信息可视化·数据分析
嘀咕博客5 天前
爱图表:镝数科技推出的智能数据可视化平台
科技·信息可视化·数据分析·ai工具
Elastic 中国社区官方博客6 天前
使用 LangExtract 和 Elasticsearch
大数据·人工智能·elasticsearch·搜索引擎·ai·信息可视化·全文检索
bmcyzs6 天前
【数字展厅】从实体到虚拟:论展厅的数字化转型之路
经验分享·科技·信息可视化·设计规范