Python数据分析与可视化实战

研究python数据分析和数据可视化实现销售数据的展示,学会python分析数据应用,主要掌握pandas和matplotlib的python扩展库的使用。

  1. 环境准备

确保已安装以下库:

pip install pandas matplotlib

  1. 数据加载与清洗

示例数据(假设 sales_data.csv):

日期,产品类别,销售额,销售量,地区

2023-01-01,电子产品,5000,10,北京

2023-01-02,服装,3000,15,上海

2023-01-03,食品,2000,20,广州

...

加载数据:

import pandas as pd

读取 CSV 文件

df = pd.read_csv("sales_data.csv")

查看前5行

print(df.head())

查看数据信息(列类型、缺失值等)

print(df.info())

数据清洗:

处理缺失值(填充或删除)

df.fillna(0, inplace=True) # 用0填充缺失值

或 df.dropna(inplace=True) # 删除缺失值行

转换日期格式

df"日期" = pd.to_datetime(df"日期")

删除重复数据

df.drop_duplicates(inplace=True)

  1. 数据分析

基础统计:

总销售额、平均销售额

total_sales = df"销售额".sum()

average_sales = df"销售额".mean()

print(f"总销售额: {total_sales}, 平均销售额: {average_sales}")

按产品类别汇总

category_sales = df.groupby("产品类别")"销售额".sum().sort_values(ascending=False)

print(category_sales)

高级分析:

按地区和时间统计销售额

df"月份" = df"日期".dt.month # 提取月份

region_month_sales = df.groupby("地区", "月份")"销售额".sum().unstack()

print(region_month_sales)

  1. 数据可视化

折线图(销售趋势):

import matplotlib.pyplot as plt

按月统计总销售额

monthly_sales = df.groupby("月份")"销售额".sum()

plt.figure(figsize=(10, 6))

plt.plot(monthly_sales.index, monthly_sales.values, marker='o', linestyle='-')

plt.title("月度销售趋势")

plt.xlabel("月份")

plt.ylabel("销售额(元)")

plt.grid(True)

plt.show()

柱状图(产品类别对比):

category_sales = df.groupby("产品类别")"销售额".sum()

plt.figure(figsize=(10, 6))

category_sales.plot(kind='bar', color='skyblue', 'lightgreen', 'salmon')

plt.title("各产品类别销售额对比")

plt.xlabel("产品类别")

plt.ylabel("销售额(元)")

plt.xticks(rotation=45)

plt.show()

饼图(地区销售占比):

region_sales = df.groupby("地区")"销售额".sum()

plt.figure(figsize=(8, 8))

plt.pie(region_sales, labels=region_sales.index, autopct='%1.1f%%', startangle=90)

plt.title("各地区销售额占比")

plt.show()

箱线图(销售额分布):

plt.figure(figsize=(10, 6))

df.boxplot(column="销售额", by="产品类别", grid=False)

plt.title("不同产品类别销售额分布")

plt.suptitle("") # 移除默认标题

plt.xlabel("产品类别")

plt.ylabel("销售额(元)")

plt.show()

  1. 完整分析报告示例

生成月度销售报告

monthly_report = df.groupby("月份").agg({

"销售额": "sum", "mean",

"销售量": "sum"

}).reset_index()

print("月度销售报告:")

print(monthly_report)

可视化总销售额和销售量

fig, ax1 = plt.subplots(figsize=(12, 6))

color = 'tab:red'

ax1.set_xlabel('月份')

ax1.set_ylabel('销售额(元)', color=color)

ax1.plot(monthly_report"月份", monthly_report"销售额""sum", color=color, marker='o')

ax1.tick_params(axis='y', labelcolor=color)

ax2 = ax1.twinx()

color = 'tab:blue'

ax2.set_ylabel('销售量', color=color)

ax2.plot(monthly_report"月份", monthly_report"销售量""sum", color=color, marker='s', linestyle='--')

ax2.tick_params(axis='y', labelcolor=color)

plt.title("月度销售额与销售量对比")

plt.show()

  1. 进阶技巧

  2. Seaborn 美化图表:

import seaborn as sns

sns.set_theme(style="whitegrid") # 设置主题

  1. 动态可视化:
  • 使用 Plotly或 Pyecharts生成交互式图表。
  1. 数据透视表:

pivot_table = pd.pivot_table(df, values='销售额', index='地区', columns='产品类别', aggfunc='sum')

  1. 学习资源
相关推荐
用户8356290780511 小时前
Python 实现 PDF 文件加密与解密方法
后端·python
用户8356290780511 小时前
使用 Python 冻结与拆分 Excel 窗格教程
后端·python
Databend3 小时前
2KB histogram 背后:Databend 如何低成本追踪长尾延迟
大数据·数据分析·agent
Aloudata技术团队6 小时前
正当红的 Context Layer 到底是什么?
数据分析
你好潘先生9 小时前
别再记命令了,用 yeero do 说句人话就能跑脚本,而且不烧 token
服务器·python·命令行
Agent_大师10 小时前
WebSocket 行情重连成功,K线缺口不会自动消失
python
荣码10 小时前
LLM结构化输出:让AI返回JSON而不是废话,我踩了4个坑
java·python
copyer_xyf10 小时前
FastAPI 如何连接 MySQL
后端·python
apocelipes1 天前
常用编程语言和库的正则表达式性能对比
c语言·c++·python·性能优化·golang·开发工具和环境
用户8356290780511 天前
使用 Python 在 PDF 中创建与管理书签
后端·python