电商双十一美妆数据分析

1. 数据读取与基础查看

  • 库导入:使用 import numpy as np 和 import pandas as pd 导入常用数据分析库。
  • 数据读取: df = pd.read_csv('双十一_淘宝美妆数据.csv') 读取数据文件。
  • 数据查看:通过 df.head() 查看数据前几行; df.info() 了解数据特征(列名、数据类型、非空值数量等) ; df.shape 查看数据行列数; df.describe() 获取数值型列的统计摘要。

2. 数据清洗

  • 重复值处理: data = df.drop_duplicates(inplace = False).reset_index(inplace = True,drop = True) 用于删除重复数据,并重置索引。
  • 缺失值处理:识别 sale_count 和 comment_count 列的缺失值, data.loc[data['sale_count'].isnull()] 查看缺失行,然后用 data = data.fillna(0) 以0填充缺失值。

3. 特征工程

  • 商品子类别提取:利用 jieba 库分词,通过循环从 title 列提取子类别信息,添加到新列 subtitle 。
  • 商品类别划分:基于关键词字典,为商品划分 main_type (主类别)和 sub_type (子类别)。
  • 是否男士专用判断:通过循环判断 subtitle 中是否含男士专用关键词,添加 是否男士专用 列。
  • 销售额计算:新增 销售额 列, data['销售额'] = data.price * data.sale_count ,通过单价和销量计算得出。
相关推荐
小王毕业啦12 小时前
2010-2024年 非常规高技能劳动力(+文献)
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·经管数据
忘忧记15 小时前
某小说数据分析过程
windows·数据挖掘·数据分析
辰宇信息咨询1 天前
3D自动光学检测(AOI)市场调研报告-发展趋势、机遇及竞争分析
大数据·数据分析
地球资源数据云1 天前
中国90米分辨率土壤质地含量数据集
数据分析·遥感数据·卫星遥感
AC赳赳老秦1 天前
科研数据叙事:DeepSeek将实验数据转化为故事化分析框架
开发语言·人工智能·数据分析·r语言·时序数据库·big data·deepseek
Aloudata1 天前
数据工程实践:智能制造企业如何通过NoETL指标平台为数据资产“瘦身”,实现TCO最优?
sql·数据分析·etl·指标平台
wang_yb1 天前
数据“显微镜”:蜂群图让每个数据点都发声
数据分析·databook
UI设计兰亭妙微2 天前
兰亭妙微实战:B 端数据可视化设计,让枯燥数据变身业务决策支撑
信息可视化·数据分析·b端设计
德昂信息dataondemand2 天前
电商全平台销售运营分析体系
数据分析
Mikhail_G2 天前
Mysql数据库操作指南——分组查询(零基础篇十三)
大数据·数据库·sql·mysql·数据分析