8.12 数据分析(1)

双十一淘宝美妆数据

我们先需要在寻找一些数据集,来支撑我们的代码

1. 数据处理基础​
  • ​数据获取​​:SQL数据库查询、数据调用、爬虫技术(Python库如Requests、matplotlib等)

  • ​清洗技术​:处理缺失值(删除/中间补充)、异常值检测()、重复值处理、字符串规范化等

2.分析工具​
  • ​Excel​​:透视表(快速聚合)、VLOOKUP(数据关联)、基础统计函数

  • ​Python生态​​:Pandas(数据处理)、NumPy(数值计算)、SciPy(统计检验)

​3. 统计方法
  • ​R语言​:dplyr/tidyr(数据处理)、ggplot2(可视化)
  • ​数据库​:SQL进阶(窗口函数、CTE)、NoSQL基础(MongoDB查询)

4.可视化

注意:

  • 会运用到SQL → Excel → 统计学

  • 使用Python(Pandas库/Matplotlib/numpy) → → 机器学习基础

  • 分析真实数据集(开源数据集等或者自己实践创造一个数据集)

以淘宝双十一为例

缺失值处理

导入jieba库

分类商品

sub_type = [] #子类别

main_type = [] #主类别

for i in catg:

main_cat=i.strip().split('\t')[0] ----主类别为0

sub_cat=i.strip().split('\t')[1] ----第一个分类为1

o_cat=i.strip().split('\t')[2:len(catg)] ---第二个和以后为2

之后可以运用一些数据库进行数据的分析:例如:可视化、整理、画图、分类、做表等