学习目标:学会像数据分析师一样思考,知道有什么工具、能解决什么问题、如何向AI描述需求。
第一部分:数据分析思维筑基
1.1 数据分析是什么?能解决什么问题?
- 数据分析的三种类型:描述(发生了什么)、诊断(为什么发生)、预测(将要发生)
- 数据从哪里来?数据在哪里?(建立数据感知)
- 什么问题是数据能回答的?什么不能?
1.2 数据分析师的核心工作流
- 完整流程:业务理解 → 数据获取 → 数据清洗 → 探索分析 → 建模预测 → 报告输出
- 每个阶段的目标和产出是什么
- 你会发现:写代码只是其中一小部分
1.3 常见业务场景与分析方法
- 用户增长分析(AARRR模型)
- 销售分析(趋势、构成、漏斗)
- 用户分群与画像(RFM模型)
- 风控与异常检测
- 每个场景对应什么分析方法
1.4 本教程的学习方法
- 不教语法细节,教"知道有什么、知道怎么问"
- 如何向AI描述数据分析需求(提示词模板)
- 实战驱动的学习路径
第二部分:数据获取 ------ 知道数据在哪里、怎么拿
2.1 数据存储的常见形式
- 文件:CSV、Excel、JSON ------ 分别长什么样、什么时候用
- 数据库:MySQL、SQLite ------ 公司的数据为什么存在这里
- 数据仓库与数据湖 ------ 大公司的数据长什么样
2.2 本地文件读取
- CSV文件:什么场景用、核心参数有哪些(编码、分隔符、只读前N行)
- Excel文件:多Sheet怎么处理、合并单元格怎么处理
- JSON文件:嵌套结构是什么意思、什么时候需要"展开"
- 告诉AI你要做什么,它会生成代码
2.3 数据库读取(SQL概念理解)
- 什么是SQL、为什么数据分析师必须懂SQL
- SELECT:选哪几列
- WHERE:筛选哪些行
- GROUP BY:按什么分组汇总
- JOIN:多张表怎么拼在一起
- 你只需要知道这些动词是干什么的,语法交给AI
2.4 数据获取实战
- 场景一:从MySQL取出最近30天订单
- 场景二:读取Excel业务报表并处理合并单元格
- 场景三:调用API获取JSON数据并展开
第三部分:数据体检 ------ 拿到数据先看什么
3.1 数据体检清单(6个核心问题)
- 数据长什么样?有多少行多少列?每列是什么类型?哪些有缺失?数值分布如何?有哪些唯一值?
3.2 工具速查(pandas核心函数)
| 函数 | 干什么用的 | 什么时候用 | 输出长什么样 |
|---|---|---|---|
head() |
看前几行 | 刚拿到数据,确认加载正确 | 一张小表格 |
info() |
全身体检报告 | 必做操作,了解整体情况 | 行数、列数、类型、缺失、内存 |
dtypes |
每列是什么类型 | 怀疑类型不对时 | 列名→类型 |
describe() |
数值列统计摘要 | 了解分布、找异常值 | 计数、均值、分位数、最大最小值 |
unique() |
有哪些不同取值 | 检查分类列 | 列表如['北京','上海'] |
value_counts() |
每个值出现多少次 | 看分布、找脏数据 | 值→次数(排序后) |
3.3 如何向AI描述体检需求
- "帮我看一下这张表的基本情况"
- "检查年龄列有没有异常值,比如0或超过120"
- "看看城市列都有哪些不同的城市,统计每个城市的数量"
3.4 数据分析实战:体检报告
- 用泰坦尼克号数据集做完整体检
- 记录发现的问题清单(年龄有缺失、舱位等级是分类变量、登船港口有三个值)
第四部分:数据清洗 ------ 处理不完美的数据
4.1 缺失值处理
- 什么是缺失值?为什么会出现?
- 找缺失:怎么知道哪些列有缺失、缺了多少
- 处理方法:删除、填充(均值/中位数/众数/前向填充)
- 决策原则:什么时候删除、什么时候填充、用什么填充
4.2 重复值处理
- 什么是重复值、怎么发现
- 处理:保留一条还是全部删除
- 业务判断:什么样的重复是"真重复"
4.3 异常值处理
- 什么是异常值、怎么发现
- 识别方法:业务常识、统计方法(IQR、Z-score简单了解)
- 处理方式:删除、修正、单独分析
4.4 数据类型转换
- 常见问题:数字存成了文本、日期存成了文本
- 怎么发现类型问题(
info()+ 业务直觉) - 怎么告诉AI去转换类型
4.5 实战案例:泰坦尼克号数据清洗
- 完整清洗流程
- 输出:干净数据集 + 清洗日志
第五部分:探索性分析(EDA)------ 让数据说话
5.1 描述性统计
- 均值 vs 中位数:什么时候用哪个
- 标准差:数据波动有多大
- 分位数:数据分布在哪儿
- 重点是解读:这些数字告诉我们什么
5.2 分组对比分析
- 为什么要分组(男 vs 女、新用户 vs 老用户)
- 怎么分组(groupby的概念)
- 核心能力:发现组间差异、找到业务洞察
5.3 相关性分析
- 什么是相关、什么是不相关
- 正相关 vs 负相关
- 相关系数的解读(0.8意味着什么?0.1意味着什么?)
- 重要提醒:相关 ≠ 因果
5.4 分布分析
- 什么是分布、为什么要看分布
- 正态分布长什么样
- 偏态数据意味着什么(如收入分布:大部分人在左侧,少数高收入拉高均值)
5.5 EDA实战:电商用户行为分析
- 分析框架:用户活跃度、转化漏斗、复购分析
- 产出:业务洞察 + 可视化图表
第六部分:数据可视化 ------ 一图胜千言
6.1 图表选择指南(关键:什么场景用什么图)
| 想表达什么 | 用什么图 |
|---|---|
| 趋势变化(随时间) | 折线图 |
| 数量对比 | 柱状图 |
| 占比 | 饼图/环形图(慎用) |
| 分布 | 直方图/箱线图 |
| 相关性 | 散点图 |
| 多变量关系 | 热力图/散点图矩阵 |
6.2 各图表解读要点
- 从折线图看出趋势(上升、下降、周期性)
- 从柱状图看出差异(谁高谁低)
- 从箱线图看出分布(中位数、异常值)
- 重点是读图,不是画图
6.3 图表美化基础
- 标题、坐标轴标签、图例
- 颜色选择(哪些颜色放一起能看清)
- 避免误导性图表(截断的Y轴、3D效果)
6.4 实战:制作分析报告级图表
- 用Seaborn制作一组图表
- 图表组合与排版
- 直接用于PPT/报告
第七部分:建模预测入门 ------ 让数据预测未来
7.1 建模之前要知道的事
- 什么是监督学习(有答案的学习)vs 无监督学习(无答案的分组)
- 什么是训练集、测试集(别把答案提前泄露给模型)
- 什么是特征、什么是标签
7.2 回归 ------ 预测一个数字
- 什么时候用:预测价格、销量、温度
- 线性回归是什么:找到一条最合适的线
- 怎么评估模型好坏:预测值和真实值差多远(MSE、R²)
- 不需要懂公式,知道原理即可
7.3 分类 ------ 预测一个类别
- 什么时候用:流失预测(流失/不流失)、垃圾邮件判断
- 逻辑回归是什么:输出一个概率(80%会流失)
- 怎么评估模型好坏:准确率、召回率(抓到多少坏人)、精确率(抓的人里多少是坏人)
- 重点:不同业务看不同指标(欺诈检测看重召回率,垃圾邮件看重视精确率)
7.4 聚类 ------ 发现自然分组
- 什么时候用:用户分群、商品分组
- K-Means是什么:自动分成K个组
- 怎么确定K值(手肘法):找拐点
- 重点:聚类结果要有业务解释意义
7.5 特征工程(知道这个概念就行)
- 什么是特征:用来预测的信息
- 常见特征类型:数值、分类、时间
- 特征编码:把"男/女"变成0/1
- 特征缩放:把年龄和收入拉到同一量级
7.6 实战案例
- 案例一:房价预测(回归)
- 案例二:泰坦尼克生存预测(分类)
- 案例三:RFM用户分群(聚类)
第八部分:时间序列分析 ------ 处理带时间的数据
8.1 时间序列的特殊之处
- 数据点之间不独立(今天的销量和昨天有关)
- 时间维度的分析:趋势、季节性、周期
8.2 时间序列的组成部分
- 趋势:长期方向(上升/下降/平稳)
- 季节性:固定周期的波动(周末效应、双11)
- 残差:剩余的随机波动
8.3 简单预测方法
- 移动平均:平滑噪音、看趋势
- 指数平滑:近期数据权重大
- 目标:知道怎么预测,不要求掌握复杂公式
8.4 实战:销售额预测
- 识别趋势和季节性
- 选择合适的简单模型
- 解读预测结果
第九部分:综合实战项目(3个完整项目)
项目一:电商销量预测
- 业务背景:备货决策需要销量预测
- 分析流程:数据清洗 → EDA → 特征工程 → 回归模型 → 评估
- 产出:预测结果 + 业务建议
项目二:客户流失预警
- 业务背景:提前识别高流失风险用户,做干预
- 分析流程:数据清洗 → 特征构造 → 分类模型 → 评估(重点看召回率)→ 输出高风险名单
- 产出:流失概率表 + 运营策略
项目三:用户画像与精细化运营
- 业务背景:对不同用户群体采取不同运营策略
- 分析流程:RFM构造 → K-Means聚类 → 群体特征分析 → 策略建议
- 产出:用户分群表 + 差异化运营策略
第十部分:分析与报告 ------ 从数据到决策
10.1 提炼业务洞察
- 特征重要性 → 翻译成人话("年龄是最重要的预测因子" → "年轻用户更容易流失")
- 聚类中心 → 描述群体特征
- 从数据到建议的转化
10.2 分析报告怎么写
- 标准结构:背景 → 方法 → 发现 → 结论 → 建议
- 面向不同受众的写法(老板看结论、业务看行动)
- 一页纸摘要 vs 完整报告
10.3 数据故事讲述
- 讲一个"问题 → 发现 → 行动 → 结果"的故事
- 用图表说话,不让图表自己说话
- 避免误导性表述("增长500%"可能是从1个到5个)
附录
A1 学习速查表
- 核心函数卡片(函数名、做什么、什么时候用)
- 业务场景 → 分析方法对照表
- 常见问题 → 解决方案对照表
A2 如何向AI描述需求(提示词模板库)
- 数据读取类
- 数据清洗类
- 探索分析类
- 可视化类
- 建模类
A3 公开数据集推荐
- Kaggle、天池、UCI
- 各数据集适合练习什么
A4 常见问题与解决思路
- 内存不够怎么办
- 数据太大跑不动怎么办
- 模型效果不好怎么办
大纲设计说明
| 变化 | 原大纲 | 新大纲 |
|---|---|---|
| 代码细节 | 详细讲解语法参数 | 只告诉"用什么、做什么",代码由AI生成 |
| 工具讲解 | 按函数逐一讲解 | 按"解决什么问题"组织 |
| 可视化 | 讲Matplotlib/Seaborn语法 | 讲"什么场景选什么图" |
| SQL | 详细语法 | 只讲6个核心动词的用途 |
| 篇幅 | 偏长 | 精简,保留核心概念 |
| 学习目标 | 学会写代码 | 学会分析思维 + 会用AI |