电商双十一美妆数据分析

1. 数据读取与基础查看

  • 库导入:使用 import numpy as np 和 import pandas as pd 导入常用数据分析库。
  • 数据读取: df = pd.read_csv('双十一_淘宝美妆数据.csv') 读取数据文件。
  • 数据查看:通过 df.head() 查看数据前几行; df.info() 了解数据特征(列名、数据类型、非空值数量等) ; df.shape 查看数据行列数; df.describe() 获取数值型列的统计摘要。

2. 数据清洗

  • 重复值处理: data = df.drop_duplicates(inplace = False).reset_index(inplace = True,drop = True) 用于删除重复数据,并重置索引。
  • 缺失值处理:识别 sale_count 和 comment_count 列的缺失值, data.loc[data['sale_count'].isnull()] 查看缺失行,然后用 data = data.fillna(0) 以0填充缺失值。

3. 特征工程

  • 商品子类别提取:利用 jieba 库分词,通过循环从 title 列提取子类别信息,添加到新列 subtitle 。
  • 商品类别划分:基于关键词字典,为商品划分 main_type (主类别)和 sub_type (子类别)。
  • 是否男士专用判断:通过循环判断 subtitle 中是否含男士专用关键词,添加 是否男士专用 列。
  • 销售额计算:新增 销售额 列, data['销售额'] = data.price * data.sale_count ,通过单价和销量计算得出。
相关推荐
自由鬼18 分钟前
数据分析图表类型及其应用场景
信息可视化·数据挖掘·数据分析
反向跟单策略2 小时前
期货反向跟单运营逻辑推导思路
大数据·人工智能·数据分析·区块链
害羞的白菜5 小时前
基于Axure+墨刀设计的电梯管理系统云台ERP的中保真原型图
数据分析·产品经理·axure·项目经理·墨刀
Leo.yuan6 小时前
实时数据仓库是什么?数据仓库设计怎么做?
大数据·数据库·数据仓库·数据分析·spark
仟濹7 小时前
「数据分析 - Pandas 函数」【数据分析全栈攻略:爬虫+处理+可视化+报告】
爬虫·数据分析·pandas
viperrrrrrrrrr71 天前
大数据学习(128)-数据分析实例
大数据·学习·数据分析
小王毕业啦1 天前
2022年 国内税务年鉴PDF电子版Excel
大数据·人工智能·数据挖掘·数据分析·数据统计·年鉴·社科数据
坚持就完事了1 天前
平滑技术(数据处理,持续更新...)
信息可视化·数据挖掘·数据分析
SelectDB1 天前
Apache Doris + MCP:Agent 时代的实时数据分析底座
大数据·数据分析·敏捷开发
XYu123011 天前
豆瓣图书评论数据分析与可视化
python·数据挖掘·数据分析