数据分析知识体系
├── 数据基础知识
│ ├── 数据类型
│ │ ├── 结构化数据
│ │ ├── 半结构化数据
│ │ └── 非结构化数据
│ ├── 数据质量
│ │ ├── 准确性
│ │ ├── 完整性
│ │ ├── 一致性
│ │ ├── 及时性
│ │ └── 唯一性
│ └── 数据生命周期管理
│ ├── 数据采集
│ ├── 数据存储
│ ├── 数据处理
│ └── 数据销毁
├── 统计学基础
│ ├── 概率论
│ │ ├── 基本概念
│ │ │ ├── 样本空间
│ │ │ ├── 事件
│ │ │ ├── 概率公理
│ │ │ └── 条件概率
│ │ ├── 随机变量
│ │ │ ├── 离散随机变量
│ │ │ │ ├── 伯努利分布
│ │ │ │ ├── 二项分布
│ │ │ │ ├── 泊松分布
│ │ │ │ └── 几何分布
│ │ │ └── 连续随机变量
│ │ │ ├── 均匀分布
│ │ │ ├── 正态分布
│ │ │ ├── 指数分布
│ │ │ └── t分布
│ │ └── 概率分布
│ │ ├── 期望与方差
│ │ ├── 协方差与相关系数
│ │ └── 大数定律与中心极限定理
│ ├── 描述性统计
│ │ ├── 集中趋势
│ │ │ ├── 平均数
│ │ │ ├── 中位数
│ │ │ ├── 众数
│ │ │ └── 分位数
│ │ └── 离散程度
│ │ ├── 方差
│ │ ├── 标准差
│ │ ├── 极差
│ │ ├── 四分位间距
│ │ ├── 变异系数
│ │ └── 偏度与峰度
│ └── 推断性统计
│ ├── 参数估计
│ │ ├── 点估计
│ │ └── 区间估计
│ ├── 假设检验
│ │ ├── 原假设与备择假设
│ │ ├── 显著性水平
│ │ ├── P值
│ │ ├── 第一类错误与第二类错误
│ │ ├── 单样本检验
│ │ ├── 双样本检验
│ │ └── 方差分析(ANOVA)
│ ├── 抽样理论
│ │ ├── 简单随机抽样
│ │ ├── 分层抽样
│ │ ├── 整群抽样
│ │ └── 系统抽样
│ └── 实验设计
│ ├── 随机化
│ ├── 重复
│ └── 区组设计
├── 数学基础
│ ├── 线性代数
│ │ ├── 向量与矩阵
│ │ ├── 行列式
│ │ ├── 特征值与特征向量
│ │ └── 奇异值分解
│ ├── 微积分
│ │ ├── 导数与微分
│ │ ├── 积分
│ │ └── 梯度与优化
│ └── 最优化理论
│ ├── 凸优化
│ └── 拉格朗日乘子法
├── 数据分析方法
│ ├── 相关分析(已包含)
│ │ ├── 相关关系
│ │ ├── 函数关系
│ │ └── 相关系数
│ ├── 回归分析
│ │ ├── 线性回归
│ │ │ ├── 一元线性回归
│ │ │ ├── 多元线性回归
│ │ │ ├── 回归诊断
│ │ │ └── 共线性问题
│ │ ├── 逻辑回归
│ │ ├── 多项式回归
│ │ └── 岭回归与Lasso回归
│ ├── 时间序列分析
│ │ ├── 时间序列分解
│ │ │ ├── 加法模型
│ │ │ ├── 乘法模型
│ │ │ └── 季节性分解
│ │ ├── 平稳性检验
│ │ ├── 自相关与偏自相关
│ │ ├── ARIMA模型
│ │ ├── 指数平滑法
│ │ └── 季节性模型
│ ├── 多元统计分析
│ │ ├── 主成分分析(PCA)
│ │ ├── 因子分析
│ │ ├── 聚类分析
│ │ │ ├── K-means
│ │ │ ├── 层次聚类
│ │ │ └── DBSCAN
│ │ └── 判别分析
│ └── 非参数统计
│ ├── 秩和检验
│ ├── 符号检验
│ └── 卡方检验
├── 数据挖掘与机器学习
│ ├── 数据挖掘过程(CRISP-DM,已包含)
│ │ ├── 业务理解
│ │ ├── 数据理解
│ │ ├── 数据准备
│ │ ├── 建模
│ │ ├── 评估
│ │ └── 部署
│ └── 机器学习算法
│ ├── 监督学习
│ │ ├── 分类算法
│ │ │ ├── 决策树
│ │ │ ├── 随机森林
│ │ │ ├── 支持向量机(SVM)
│ │ │ ├── 朴素贝叶斯
│ │ │ ├── K近邻(KNN)
│ │ │ └── 神经网络
│ │ └── 回归算法
│ │ ├── 线性回归
│ │ ├── 岭回归
│ │ ├── Lasso回归
│ │ └── 弹性网络
│ ├── 无监督学习
│ │ ├── 聚类算法
│ │ │ ├── K-means
│ │ │ ├── 层次聚类
│ │ │ ├── DBSCAN
│ │ │ └── 高斯混合模型
│ │ └── 降维算法
│ │ ├── 主成分分析(PCA)
│ │ ├── t-SNE
│ │ └── 自编码器
│ ├── 半监督学习
│ ├── 强化学习
│ └── 集成学习
│ ├── Bagging
│ ├── Boosting
│ │ ├── AdaBoost
│ │ ├── Gradient Boosting
│ │ └── XGBoost/LightGBM
│ └── Stacking
├── 数据处理技术
│ ├── 数据采集
│ │ ├── 网络爬虫
│ │ ├── API接口
│ │ ├── 日志收集
│ │ └── 传感器数据
│ ├── 数据清洗
│ │ ├── 缺失值处理
│ │ ├── 异常值检测
│ │ ├── 数据转换
│ │ └── 数据标准化
│ ├── 数据集成
│ │ ├── 数据合并
│ │ ├── 数据融合
│ │ └── ETL流程
│ └── 数据存储
│ ├── 关系型数据库
│ ├── NoSQL数据库
│ ├── 数据仓库
│ └── 数据湖
├── 编程与工具
│ ├── 编程语言
│ │ ├── Python
│ │ │ ├── NumPy
│ │ │ ├── Pandas
│ │ │ ├── Matplotlib/Seaborn
│ │ │ ├── Scikit-learn
│ │ │ └── TensorFlow/PyTorch
│ │ ├── R语言
│ │ ├── SQL
│ │ └── Scala
│ ├── 数据处理工具
│ │ ├── Excel/Google Sheets
│ │ ├── Apache Spark
│ │ ├── Hadoop
│ │ └── Apache Flink
│ └── 可视化工具
│ ├── Tableau
│ ├── Power BI
│ ├── Looker
│ └── D3.js
├── 数据可视化
│ ├── 静态分析图表
│ │ ├── 饼图
│ │ ├── 面积图
│ │ ├── 散点图
│ │ ├── 气泡图
│ │ ├── 漏斗图
│ │ ├── 金字塔图
│ │ ├── 柱状图
│ │ ├── 折线图
│ │ ├── 箱线图
│ │ ├── 热力图
│ │ └── 雷达图
│ ├── 动态分析图表
│ ├── 仪表盘设计
│ └── 可视化原则
│ ├── 数据墨水比
│ ├── 图表选择
│ └── 颜色理论
├── 大数据技术
│ ├── 分布式计算
│ │ ├── MapReduce
│ │ └── Spark
│ ├── 分布式存储
│ │ ├── HDFS
│ │ └── HBase
│ ├── 流处理
│ │ ├── Kafka
│ │ └── Flink
│ └── 数据湖技术
├── 领域知识
│ ├── 商业分析
│ │ ├── 市场营销分析
│ │ ├── 财务分析
│ │ ├── 运营分析
│ │ └── 用户行为分析
│ ├── 科学研究
│ │ ├── 生物信息学
│ │ ├── 天文学
│ │ ├── 物理学
│ │ └── 社会科学
│ ├── 工程应用
│ │ ├── 工业物联网
│ │ ├── 质量控制
│ │ └── 预测性维护
│ └── 其他领域
│ ├── 医疗健康
│ ├── 金融风控
│ ├── 智慧城市
│ └── 教育科技
└── 软技能与思维
├── 分析思维
│ ├── 批判性思维
│ ├── 系统性思维
│ └── 创造性思维
├── 沟通能力
│ ├── 数据故事讲述
│ ├── 报告撰写
│ └── 可视化沟通
├── 项目管理
│ ├── 需求分析
│ ├── 时间管理
│ └── 风险管理
└── 伦理与合规
├── 数据隐私
├── 数据安全
└── 算法公平性
其他说明:
1. 统计学基础:
- 概率论:样本空间、事件、条件概率等基础概念
- 随机变量分布:伯努利、二项、泊松、正态、t分布等
- 假设检验:P值、显著性水平、错误类型等
- 方差分析(ANOVA):用于多组比较
2. 数学基础:
- 线性代数、微积分、最优化理论是机器学习的基础
3. 机器学习算法:
- 监督学习、无监督学习算法分类
- 深度学习、神经网络等重要概念缺失
4. 编程与工具:
- Python生态(NumPy, Pandas, Scikit-learn等)
- SQL数据库查询技能
- 可视化工具(Tableau, Power BI等)
5. 大数据技术:
- Hadoop, Spark, Kafka等大数据处理框架
6. 软技能:
- 数据故事讲述、沟通能力、项目管理等
7. 伦理与合规:
- 数据隐私、算法公平性等