电商双十一美妆数据分析

1. 数据读取与基础查看

  • 库导入:使用 import numpy as np 和 import pandas as pd 导入常用数据分析库。
  • 数据读取: df = pd.read_csv('双十一_淘宝美妆数据.csv') 读取数据文件。
  • 数据查看:通过 df.head() 查看数据前几行; df.info() 了解数据特征(列名、数据类型、非空值数量等) ; df.shape 查看数据行列数; df.describe() 获取数值型列的统计摘要。

2. 数据清洗

  • 重复值处理: data = df.drop_duplicates(inplace = False).reset_index(inplace = True,drop = True) 用于删除重复数据,并重置索引。
  • 缺失值处理:识别 sale_count 和 comment_count 列的缺失值, data.loc[data['sale_count'].isnull()] 查看缺失行,然后用 data = data.fillna(0) 以0填充缺失值。

3. 特征工程

  • 商品子类别提取:利用 jieba 库分词,通过循环从 title 列提取子类别信息,添加到新列 subtitle 。
  • 商品类别划分:基于关键词字典,为商品划分 main_type (主类别)和 sub_type (子类别)。
  • 是否男士专用判断:通过循环判断 subtitle 中是否含男士专用关键词,添加 是否男士专用 列。
  • 销售额计算:新增 销售额 列, data['销售额'] = data.price * data.sale_count ,通过单价和销量计算得出。
相关推荐
聊聊MES那点事11 小时前
从数据采集到日报输出,FastReport如何帮工厂做好生产日报?
数据分析·报表工具·fastreport
kcuwu.12 小时前
Python数据分析三剑客导论:NumPy、Pandas、Matplotlib 从入门到入门
python·数据分析·numpy
数厘12 小时前
2.4MySQL安装配置指南(电商数据分析专用)
数据库·mysql·数据分析
databook14 小时前
逃离SQL丛林:实用主义的数据救赎
后端·sql·数据分析
wang_yb14 小时前
逃离SQL丛林:实用主义的数据救赎
数据分析·databook
问组生物15 小时前
在线绘制带连线的配体-受体联合热图
数据分析·数据可视化·论文插图·科研绘图·科学科普·基因表达·联合热图
Aloudata15 小时前
如何通过 NoETL 指标平台根治跨业务口径混乱
数据分析·etl·指标平台·指标口径
余丁,微生信18 小时前
在线绘制饼+弧线图以展示venn交集情况
数据分析·数据可视化·论文插图·生信分析·科学科普·文恩图·基因表达
没有梦想的咸鱼185-1037-166320 小时前
AI大模型支持下的顶刊绘图|散点图、气泡图、柱状图、热力图、柱状图、热力图、箱线图、热力图、云雨图、韦恩图、瀑布图、神经网络图、时间序列或分布展示
人工智能·神经网络·arcgis·信息可视化·数据分析·r语言·ai写作
李昊哲小课20 小时前
Pandas数据分析 - 第十一章:数据可视化
信息可视化·数据挖掘·数据分析·pandas·matplotlib