数据分析实战教程：从思维到落地

学习目标：学会像数据分析师一样思考，知道有什么工具、能解决什么问题、如何向AI描述需求。

第一部分：数据分析思维筑基

1.1 数据分析是什么？能解决什么问题？

数据分析的三种类型：描述（发生了什么）、诊断（为什么发生）、预测（将要发生）
数据从哪里来？数据在哪里？（建立数据感知）
什么问题是数据能回答的？什么不能？

1.2 数据分析师的核心工作流

完整流程：业务理解 → 数据获取 → 数据清洗 → 探索分析 → 建模预测 → 报告输出
每个阶段的目标和产出是什么
你会发现：写代码只是其中一小部分

1.3 常见业务场景与分析方法

用户增长分析（AARRR模型）
销售分析（趋势、构成、漏斗）
用户分群与画像（RFM模型）
风控与异常检测
每个场景对应什么分析方法

1.4 本教程的学习方法

不教语法细节，教"知道有什么、知道怎么问"
如何向AI描述数据分析需求（提示词模板）
实战驱动的学习路径

第二部分：数据获取 ------ 知道数据在哪里、怎么拿

2.1 数据存储的常见形式

文件：CSV、Excel、JSON ------ 分别长什么样、什么时候用
数据库：MySQL、SQLite ------ 公司的数据为什么存在这里
数据仓库与数据湖 ------ 大公司的数据长什么样

2.2 本地文件读取

CSV文件：什么场景用、核心参数有哪些（编码、分隔符、只读前N行）
Excel文件：多Sheet怎么处理、合并单元格怎么处理
JSON文件：嵌套结构是什么意思、什么时候需要"展开"
告诉AI你要做什么，它会生成代码

2.3 数据库读取（SQL概念理解）

什么是SQL、为什么数据分析师必须懂SQL
SELECT：选哪几列
WHERE：筛选哪些行
GROUP BY：按什么分组汇总
JOIN：多张表怎么拼在一起
你只需要知道这些动词是干什么的，语法交给AI

2.4 数据获取实战

场景一：从MySQL取出最近30天订单
场景二：读取Excel业务报表并处理合并单元格
场景三：调用API获取JSON数据并展开

第三部分：数据体检 ------ 拿到数据先看什么

3.1 数据体检清单（6个核心问题）

数据长什么样？有多少行多少列？每列是什么类型？哪些有缺失？数值分布如何？有哪些唯一值？

3.2 工具速查（pandas核心函数）

函数	干什么用的	什么时候用	输出长什么样
`head()`	看前几行	刚拿到数据，确认加载正确	一张小表格
`info()`	全身体检报告	必做操作，了解整体情况	行数、列数、类型、缺失、内存
`dtypes`	每列是什么类型	怀疑类型不对时	列名→类型
`describe()`	数值列统计摘要	了解分布、找异常值	计数、均值、分位数、最大最小值
`unique()`	有哪些不同取值	检查分类列	列表如`['北京','上海']`
`value_counts()`	每个值出现多少次	看分布、找脏数据	值→次数（排序后）

3.3 如何向AI描述体检需求

"帮我看一下这张表的基本情况"
"检查年龄列有没有异常值，比如0或超过120"
"看看城市列都有哪些不同的城市，统计每个城市的数量"

3.4 数据分析实战：体检报告

用泰坦尼克号数据集做完整体检
记录发现的问题清单（年龄有缺失、舱位等级是分类变量、登船港口有三个值）

第四部分：数据清洗 ------ 处理不完美的数据

4.1 缺失值处理

什么是缺失值？为什么会出现？
找缺失：怎么知道哪些列有缺失、缺了多少
处理方法：删除、填充（均值/中位数/众数/前向填充）
决策原则：什么时候删除、什么时候填充、用什么填充

4.2 重复值处理

什么是重复值、怎么发现
处理：保留一条还是全部删除
业务判断：什么样的重复是"真重复"

4.3 异常值处理

什么是异常值、怎么发现
识别方法：业务常识、统计方法（IQR、Z-score简单了解）
处理方式：删除、修正、单独分析

4.4 数据类型转换

常见问题：数字存成了文本、日期存成了文本
怎么发现类型问题（info() + 业务直觉）
怎么告诉AI去转换类型

4.5 实战案例：泰坦尼克号数据清洗

完整清洗流程
输出：干净数据集 + 清洗日志

第五部分：探索性分析（EDA）------ 让数据说话

5.1 描述性统计

均值 vs 中位数：什么时候用哪个
标准差：数据波动有多大
分位数：数据分布在哪儿
重点是解读：这些数字告诉我们什么

5.2 分组对比分析

为什么要分组（男 vs 女、新用户 vs 老用户）
怎么分组（groupby的概念）
核心能力：发现组间差异、找到业务洞察

5.3 相关性分析

什么是相关、什么是不相关
正相关 vs 负相关
相关系数的解读（0.8意味着什么？0.1意味着什么？）
重要提醒：相关 ≠ 因果

5.4 分布分析

什么是分布、为什么要看分布
正态分布长什么样
偏态数据意味着什么（如收入分布：大部分人在左侧，少数高收入拉高均值）

5.5 EDA实战：电商用户行为分析

分析框架：用户活跃度、转化漏斗、复购分析
产出：业务洞察 + 可视化图表

第六部分：数据可视化 ------ 一图胜千言

6.1 图表选择指南（关键：什么场景用什么图）

想表达什么	用什么图
趋势变化（随时间）	折线图
数量对比	柱状图
占比	饼图/环形图（慎用）
分布	直方图/箱线图
相关性	散点图
多变量关系	热力图/散点图矩阵

6.2 各图表解读要点

从折线图看出趋势（上升、下降、周期性）
从柱状图看出差异（谁高谁低）
从箱线图看出分布（中位数、异常值）
重点是读图，不是画图

6.3 图表美化基础

标题、坐标轴标签、图例
颜色选择（哪些颜色放一起能看清）
避免误导性图表（截断的Y轴、3D效果）

6.4 实战：制作分析报告级图表

用Seaborn制作一组图表
图表组合与排版
直接用于PPT/报告

第七部分：建模预测入门 ------ 让数据预测未来

7.1 建模之前要知道的事

什么是监督学习（有答案的学习）vs 无监督学习（无答案的分组）
什么是训练集、测试集（别把答案提前泄露给模型）
什么是特征、什么是标签

7.2 回归 ------ 预测一个数字

什么时候用：预测价格、销量、温度
线性回归是什么：找到一条最合适的线
怎么评估模型好坏：预测值和真实值差多远（MSE、R²）
不需要懂公式，知道原理即可

7.3 分类 ------ 预测一个类别

什么时候用：流失预测（流失/不流失）、垃圾邮件判断
逻辑回归是什么：输出一个概率（80%会流失）
怎么评估模型好坏：准确率、召回率（抓到多少坏人）、精确率（抓的人里多少是坏人）
重点：不同业务看不同指标（欺诈检测看重召回率，垃圾邮件看重视精确率）

7.4 聚类 ------ 发现自然分组

什么时候用：用户分群、商品分组
K-Means是什么：自动分成K个组
怎么确定K值（手肘法）：找拐点
重点：聚类结果要有业务解释意义

7.5 特征工程（知道这个概念就行）

什么是特征：用来预测的信息
常见特征类型：数值、分类、时间
特征编码：把"男/女"变成0/1
特征缩放：把年龄和收入拉到同一量级

7.6 实战案例

案例一：房价预测（回归）
案例二：泰坦尼克生存预测（分类）
案例三：RFM用户分群（聚类）

第八部分：时间序列分析 ------ 处理带时间的数据

8.1 时间序列的特殊之处

数据点之间不独立（今天的销量和昨天有关）
时间维度的分析：趋势、季节性、周期

8.2 时间序列的组成部分

趋势：长期方向（上升/下降/平稳）
季节性：固定周期的波动（周末效应、双11）
残差：剩余的随机波动

8.3 简单预测方法

移动平均：平滑噪音、看趋势
指数平滑：近期数据权重大
目标：知道怎么预测，不要求掌握复杂公式

8.4 实战：销售额预测

识别趋势和季节性
选择合适的简单模型
解读预测结果

第九部分：综合实战项目（3个完整项目）

项目一：电商销量预测

业务背景：备货决策需要销量预测
分析流程：数据清洗 → EDA → 特征工程 → 回归模型 → 评估
产出：预测结果 + 业务建议

项目二：客户流失预警

业务背景：提前识别高流失风险用户，做干预
分析流程：数据清洗 → 特征构造 → 分类模型 → 评估（重点看召回率）→ 输出高风险名单
产出：流失概率表 + 运营策略

项目三：用户画像与精细化运营

业务背景：对不同用户群体采取不同运营策略
分析流程：RFM构造 → K-Means聚类 → 群体特征分析 → 策略建议
产出：用户分群表 + 差异化运营策略

第十部分：分析与报告 ------ 从数据到决策

10.1 提炼业务洞察

特征重要性 → 翻译成人话（"年龄是最重要的预测因子" → "年轻用户更容易流失"）
聚类中心 → 描述群体特征
从数据到建议的转化

10.2 分析报告怎么写

标准结构：背景 → 方法 → 发现 → 结论 → 建议
面向不同受众的写法（老板看结论、业务看行动）
一页纸摘要 vs 完整报告

10.3 数据故事讲述

讲一个"问题 → 发现 → 行动 → 结果"的故事
用图表说话，不让图表自己说话
避免误导性表述（"增长500%"可能是从1个到5个）

附录

A1 学习速查表

核心函数卡片（函数名、做什么、什么时候用）
业务场景 → 分析方法对照表
常见问题 → 解决方案对照表

A2 如何向AI描述需求（提示词模板库）

数据读取类
数据清洗类
探索分析类
可视化类
建模类

A3 公开数据集推荐

Kaggle、天池、UCI
各数据集适合练习什么

A4 常见问题与解决思路

内存不够怎么办
数据太大跑不动怎么办
模型效果不好怎么办

大纲设计说明

变化	原大纲	新大纲
代码细节	详细讲解语法参数	只告诉"用什么、做什么"，代码由AI生成
工具讲解	按函数逐一讲解	按"解决什么问题"组织
可视化	讲Matplotlib/Seaborn语法	讲"什么场景选什么图"
SQL	详细语法	只讲6个核心动词的用途
篇幅	偏长	精简，保留核心概念
学习目标	学会写代码	学会分析思维 + 会用AI