双十一淘宝美妆数据
我们先需要在寻找一些数据集,来支撑我们的代码
1. 数据处理基础
-
数据获取:SQL数据库查询、数据调用、爬虫技术(Python库如Requests、matplotlib等)
-
清洗技术:处理缺失值(删除/中间补充)、异常值检测()、重复值处理、字符串规范化等
2.分析工具
-
Excel:透视表(快速聚合)、VLOOKUP(数据关联)、基础统计函数
-
Python生态:Pandas(数据处理)、NumPy(数值计算)、SciPy(统计检验)
3. 统计方法
- R语言:dplyr/tidyr(数据处理)、ggplot2(可视化)
- 数据库:SQL进阶(窗口函数、CTE)、NoSQL基础(MongoDB查询)
4.可视化
注意:
-
会运用到SQL → Excel → 统计学
-
使用Python(Pandas库/Matplotlib/numpy) → → 机器学习基础
-
分析真实数据集(开源数据集等或者自己实践创造一个数据集)
以淘宝双十一为例

缺失值处理

导入jieba库

分类商品
sub_type = [] #子类别
main_type = [] #主类别
for i in catg:
main_cat=i.strip().split('\t')[0] ----主类别为0
sub_cat=i.strip().split('\t')[1] ----第一个分类为1
o_cat=i.strip().split('\t')[2:len(catg)] ---第二个和以后为2
之后可以运用一些数据库进行数据的分析:例如:可视化、整理、画图、分类、做表等