Python数据分析与可视化实战

研究python数据分析和数据可视化实现销售数据的展示,学会python分析数据应用,主要掌握pandas和matplotlib的python扩展库的使用。

  1. 环境准备

确保已安装以下库:

pip install pandas matplotlib

  1. 数据加载与清洗

示例数据(假设 sales_data.csv):

日期,产品类别,销售额,销售量,地区

2023-01-01,电子产品,5000,10,北京

2023-01-02,服装,3000,15,上海

2023-01-03,食品,2000,20,广州

...

加载数据:

import pandas as pd

读取 CSV 文件

df = pd.read_csv("sales_data.csv")

查看前5行

print(df.head())

查看数据信息(列类型、缺失值等)

print(df.info())

数据清洗:

处理缺失值(填充或删除)

df.fillna(0, inplace=True) # 用0填充缺失值

或 df.dropna(inplace=True) # 删除缺失值行

转换日期格式

df"日期" = pd.to_datetime(df"日期")

删除重复数据

df.drop_duplicates(inplace=True)

  1. 数据分析

基础统计:

总销售额、平均销售额

total_sales = df"销售额".sum()

average_sales = df"销售额".mean()

print(f"总销售额: {total_sales}, 平均销售额: {average_sales}")

按产品类别汇总

category_sales = df.groupby("产品类别")"销售额".sum().sort_values(ascending=False)

print(category_sales)

高级分析:

按地区和时间统计销售额

df"月份" = df"日期".dt.month # 提取月份

region_month_sales = df.groupby("地区", "月份")"销售额".sum().unstack()

print(region_month_sales)

  1. 数据可视化

折线图(销售趋势):

import matplotlib.pyplot as plt

按月统计总销售额

monthly_sales = df.groupby("月份")"销售额".sum()

plt.figure(figsize=(10, 6))

plt.plot(monthly_sales.index, monthly_sales.values, marker='o', linestyle='-')

plt.title("月度销售趋势")

plt.xlabel("月份")

plt.ylabel("销售额(元)")

plt.grid(True)

plt.show()

柱状图(产品类别对比):

category_sales = df.groupby("产品类别")"销售额".sum()

plt.figure(figsize=(10, 6))

category_sales.plot(kind='bar', color='skyblue', 'lightgreen', 'salmon')

plt.title("各产品类别销售额对比")

plt.xlabel("产品类别")

plt.ylabel("销售额(元)")

plt.xticks(rotation=45)

plt.show()

饼图(地区销售占比):

region_sales = df.groupby("地区")"销售额".sum()

plt.figure(figsize=(8, 8))

plt.pie(region_sales, labels=region_sales.index, autopct='%1.1f%%', startangle=90)

plt.title("各地区销售额占比")

plt.show()

箱线图(销售额分布):

plt.figure(figsize=(10, 6))

df.boxplot(column="销售额", by="产品类别", grid=False)

plt.title("不同产品类别销售额分布")

plt.suptitle("") # 移除默认标题

plt.xlabel("产品类别")

plt.ylabel("销售额(元)")

plt.show()

  1. 完整分析报告示例

生成月度销售报告

monthly_report = df.groupby("月份").agg({

"销售额": "sum", "mean",

"销售量": "sum"

}).reset_index()

print("月度销售报告:")

print(monthly_report)

可视化总销售额和销售量

fig, ax1 = plt.subplots(figsize=(12, 6))

color = 'tab:red'

ax1.set_xlabel('月份')

ax1.set_ylabel('销售额(元)', color=color)

ax1.plot(monthly_report"月份", monthly_report"销售额""sum", color=color, marker='o')

ax1.tick_params(axis='y', labelcolor=color)

ax2 = ax1.twinx()

color = 'tab:blue'

ax2.set_ylabel('销售量', color=color)

ax2.plot(monthly_report"月份", monthly_report"销售量""sum", color=color, marker='s', linestyle='--')

ax2.tick_params(axis='y', labelcolor=color)

plt.title("月度销售额与销售量对比")

plt.show()

  1. 进阶技巧

  2. Seaborn 美化图表:

import seaborn as sns

sns.set_theme(style="whitegrid") # 设置主题

  1. 动态可视化:
  • 使用 Plotly或 Pyecharts生成交互式图表。
  1. 数据透视表:

pivot_table = pd.pivot_table(df, values='销售额', index='地区', columns='产品类别', aggfunc='sum')

  1. 学习资源
相关推荐
IT知识分享31 分钟前
从零开发在线简繁转换工具:OpenCC 实战、避坑经验与方案选型
javascript·python
lunzi_082636 分钟前
【学习笔记】《Python编程 从入门到实践》第8章:函数定义、参数传递与模块导入
笔记·python·学习
杨运交1 小时前
[030][Web模块]Spring Boot 验证与 OpenAPI 集成实战:从校验规则到文档生成
前端·spring boot·python
培培说证1 小时前
2026财务岗位如何快速提升自身能力
python
努力攻坚操作系统1 小时前
编程语言编译运行机制对比:C / Java / Python
java·c语言·python
godspeed_lucip1 小时前
LLM和Agent——专题6:Multi Agent 入门(5)
人工智能·python
小白学大数据2 小时前
爬虫性能天花板:asyncio赋能 Aiohttp,并发提速 10 倍
开发语言·爬虫·数据分析
Metaphor6922 小时前
使用 Python 给 PDF 设置背景色或背景图
数据库·python·pdf
郝亚军3 小时前
如何让pycharm-2026.1.2顶部菜单栏固定显示在最上端
python