电商双十一美妆数据分析

1. 数据读取与基础查看

  • 库导入:使用 import numpy as np 和 import pandas as pd 导入常用数据分析库。
  • 数据读取: df = pd.read_csv('双十一_淘宝美妆数据.csv') 读取数据文件。
  • 数据查看:通过 df.head() 查看数据前几行; df.info() 了解数据特征(列名、数据类型、非空值数量等) ; df.shape 查看数据行列数; df.describe() 获取数值型列的统计摘要。

2. 数据清洗

  • 重复值处理: data = df.drop_duplicates(inplace = False).reset_index(inplace = True,drop = True) 用于删除重复数据,并重置索引。
  • 缺失值处理:识别 sale_count 和 comment_count 列的缺失值, data.loc[data['sale_count'].isnull()] 查看缺失行,然后用 data = data.fillna(0) 以0填充缺失值。

3. 特征工程

  • 商品子类别提取:利用 jieba 库分词,通过循环从 title 列提取子类别信息,添加到新列 subtitle 。
  • 商品类别划分:基于关键词字典,为商品划分 main_type (主类别)和 sub_type (子类别)。
  • 是否男士专用判断:通过循环判断 subtitle 中是否含男士专用关键词,添加 是否男士专用 列。
  • 销售额计算:新增 销售额 列, data['销售额'] = data.price * data.sale_count ,通过单价和销量计算得出。
相关推荐
华科云商xiao徐6 小时前
告别IP被封!分布式爬虫的“隐身”与“分身”术
爬虫·数据挖掘·数据分析
没有梦想的咸鱼185-1037-166317 小时前
【高分论文密码】大尺度空间模拟预测与数字制图
信息可视化·数据分析·r语言
m0_575046341 天前
FPGA数据流分析
数据分析·fpga·数据流分析
思辨共悟1 天前
Python的价值:突出在数据分析与挖掘
python·数据分析
用户Taobaoapi20141 天前
京东图片搜索相似商品API开发指南
大数据·数据挖掘·数据分析
带娃的IT创业者1 天前
《AI大模型应知应会100篇》第69篇:大模型辅助的数据分析应用开发
人工智能·数据挖掘·数据分析
数据科学作家2 天前
学数据分析必囤!数据分析必看!清华社9本书覆盖Stata/SPSS/Python全阶段学习路径
人工智能·python·机器学习·数据分析·统计·stata·spss
liliangcsdn2 天前
Leiden社区发现算法的学习和示例
学习·数据分析·知识图谱
云天徽上2 天前
【数据可视化-107】2025年1-7月全国出口总额Top 10省市数据分析:用Python和Pyecharts打造炫酷可视化大屏
开发语言·python·信息可视化·数据挖掘·数据分析·pyecharts
东哥说-MES|从入门到精通2 天前
企业微信智能表格高效使用指南
数据分析·项目管理·企业微信·智能表格