电商双十一美妆数据分析

1. 数据读取与基础查看

  • 库导入:使用 import numpy as np 和 import pandas as pd 导入常用数据分析库。
  • 数据读取: df = pd.read_csv('双十一_淘宝美妆数据.csv') 读取数据文件。
  • 数据查看:通过 df.head() 查看数据前几行; df.info() 了解数据特征(列名、数据类型、非空值数量等) ; df.shape 查看数据行列数; df.describe() 获取数值型列的统计摘要。

2. 数据清洗

  • 重复值处理: data = df.drop_duplicates(inplace = False).reset_index(inplace = True,drop = True) 用于删除重复数据,并重置索引。
  • 缺失值处理:识别 sale_count 和 comment_count 列的缺失值, data.loc[data['sale_count'].isnull()] 查看缺失行,然后用 data = data.fillna(0) 以0填充缺失值。

3. 特征工程

  • 商品子类别提取:利用 jieba 库分词,通过循环从 title 列提取子类别信息,添加到新列 subtitle 。
  • 商品类别划分:基于关键词字典,为商品划分 main_type (主类别)和 sub_type (子类别)。
  • 是否男士专用判断:通过循环判断 subtitle 中是否含男士专用关键词,添加 是否男士专用 列。
  • 销售额计算:新增 销售额 列, data['销售额'] = data.price * data.sale_count ,通过单价和销量计算得出。
相关推荐
MatrixOrigin11 小时前
在数据库里玩“平行宇宙”:MatrixOne Data Branch 让数据也拥有Git 的分支/合并/对比/回滚(含跨集群同步)
git·sql·数据分析
思迈特Smartbi20 小时前
思迈特软件斩获鲲鹏应用创新大赛(华南赛区) “最佳原生创新奖”
人工智能·ai·数据分析·bi·商业智能
码银1 天前
【数据分析】基于工作与生活平衡及寿命数据集的数据分析与可视化
数据挖掘·数据分析·生活
我是哈哈hh1 天前
【Python数据分析】数据可视化(全)
开发语言·python·信息可视化·数据挖掘·数据分析
大数据魔法师1 天前
昆明天气数据分析与挖掘(三)- 昆明天气数据可视化分析
信息可视化·数据分析·finebi
2501_921649491 天前
免费获取股票历史行情与分时K线数据 API
开发语言·后端·python·金融·数据分析
职业码农NO.12 天前
智能体推理范式: Plan-and-Execute(规划与执行)
人工智能·python·数据分析·系统架构·知识图谱·agent·集成学习
咕噜企业分发小米2 天前
阿里云基因测序数据分析平台有哪些成功案例?
阿里云·数据分析·云计算
CryptoPP2 天前
印度股票市场数据获取与分析实战:基于RESTful API与Python
数据挖掘·数据分析
过期的秋刀鱼!2 天前
Excel-数据分析开发心得(工具PQ,PP)与开发经验
大数据·数据分析·excel·模型搭建·数据优化·powerquery·powerpivot