朝阳医院2018年销售数据数据分析与可视化

linghyu2024-06-23 18:55

代码及数据集下载传送门

数据分析与可视化-朝阳医院2018销售数据-ipynb+csv

实践内容

以朝阳医院2018年销售数据为例，目的是了解朝阳医院在2018年里的销售情况，这就需要知道几个业务指标，本次的分析目标是从销售数据中分析出以下业务指标：

（1）业务指标1:月均消费次数

月均消费次数 = 总消费次数 / 月份数（同一天内，同一个人所有消费算作一次消费）

（2）业务指标2:月均消费金额

月均消费金额 = 总消费金额 / 月份数

（3）客单价

客单价 = 总消费金额 / 总消费次数

（4）消费趋势（可视化展示，并根据可视化结果给出下属问题分析得出的结论）

a、分析每天的消费金额

b、分析每月的消费金额

c、分析药品销售情况（截取销售数量最多的前十种药品，并用条形图展示结果）

数据分析基本过程数据分析基本过程包括：获取数据、数据清洗、构建模型、数据可视化以及消费趋势分析。

过程及结果

数据获取

导入pandas库并读取数据，修改为DataFrame格式

描述数据

使用shape方法查看数据形状；使用columns方法查看每一列的列表头内容；使用count()方法# 查看每一列数据统计数目

数据分析:数据清洗过程包括：选择子集、列名重命名、缺失数据处理、数据类型转换、数据排序及异常值处理。

列明重命名

使用 rename 函数，把"购药时间" 改为 "销售时间"

缺失数据处理

使用dropna函数删除缺失值

数据类型转换

将字符串转为浮点型数据

字符串转日期

转换日期过程中不符合日期格式的数值会被转换为空值None，进行删除

特征化处理

将列表转行为一维数据Series类型, 获取"销售时间"这一列数据, 调用函数去除星期，获取日期进行修改

数据排序

按销售时间进行升序排序

重置索引处理，查看描述统计信息

异常值处理

将"销售数量"这一列中小于0的数排除掉

构建模型及数据可视化 数据清洗完成后，需要利用数据构建模型（就是计算相应的业务指标），并用可视化的方式呈现结果。

删除重复数据后，计算总消费次数

使用.drop_duplicates方法清洗数据，查询数据有多少行

按销售时间升序排序

使用sort_values方法和reset_index方法

获取时间范围

分别获取最小最大时间值进行整除运算

计算业务指标

月均消费次数 = 总消费次数 / 月份数（同一天内，同一个人所有消费算作一次消费）

月均消费金额 = 总消费金额 / 月份数

客单价 = 总消费金额 / 总消费次数

按天消费金额可视化

导入所需库，并初始化画图

描述对象信息

按月消费金额可视化

有天消费金额转换为月需要先进行一些处理

将'sale_date'列转换为datetime类型，设置为索引，按月份聚合数据

描绘按月消费金额图

药品销售前十情况可视化

聚合统计各种药品的销售数量，对药品销售数量按降序排序

截取销售数量最多的十种药品，用条形图展示销售数量前十的药品

上一篇：探索AI前沿：本地部署GPT-4o，打造专属智能助手！

下一篇：前端页面实现【矩阵表格与列表】

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结