数据分析和数据挖掘的工作内容

基本的数据分析工作通常包含以下几个方面的内容:

  1. 确定目标(输入):理解业务,确定指标口径。
  2. 获取数据:数据仓库(SQL提数)、电子表格、三方接口、网络爬虫、开放数据集等。
  3. 清洗数据:包括对缺失值、重复值、异常值的处理以及相关的预处理(格式化、离散化、二值化等)。
  4. 数据透视:排序、统计、分组聚合、交叉表、透视表等 。
  5. 数据呈现(输出):数据可视化,发布工作成果(数据分析报告)。
  6. 分析洞察(后续):解释数据的变化,提出对应的方案。

深入的数据挖掘工作通常包含以下几个方面的内容:

  1. 确定目标(输入):理解业务,明确挖掘目标。
  2. 数据准备:数据采集、数据描述、数据探索、质量判定等。
  3. 数据加工:提取数据、清洗数据、数据变换、特殊编码、降维、特征选择等。
  4. 数据建模:模型比较、模型选择、算法应用。
  5. 模型评估:交叉检验、参数调优、结果评价。
  6. 模型部署(输出):模型落地、业务改进、运营监控、报告撰写。
相关推荐
做科研的周师兄8 小时前
中国土壤有机质数据集
人工智能·算法·机器学习·分类·数据挖掘
救救孩子把10 小时前
Dogs vs. Cats:从零到一的图像分类数据集
人工智能·分类·数据挖掘
Guheyunyi10 小时前
安全风险监测预警系统如何重塑企业安全防线
大数据·人工智能·科技·安全·信息可视化
电商API_1800790524710 小时前
淘宝评论API技术解析与调用实战指南
开发语言·爬虫·信息可视化
databook10 小时前
拒绝“凭感觉”:用回归分析看透数据背后的秘密
python·数据挖掘·数据分析
Christo311 小时前
2024《Three-way clustering: Foundations, survey and challenges》
人工智能·算法·机器学习·数据挖掘
2501_9413297212 小时前
基于DETR的血细胞显微图像检测与分类方法研究【原创】_1
人工智能·数据挖掘
Christo313 小时前
2022-《Deep Clustering: A Comprehensive Survey》
人工智能·算法·机器学习·数据挖掘
饼干,15 小时前
Python数据可视化速成指南
开发语言·python·信息可视化
LDG_AGI16 小时前
【推荐系统】深度学习训练框架(十七):TorchRec之KeyedJaggedTensor
人工智能·pytorch·深度学习·机器学习·数据挖掘·embedding