数据分析实战教程:从思维到落地

学习目标:学会像数据分析师一样思考,知道有什么工具、能解决什么问题、如何向AI描述需求。


第一部分:数据分析思维筑基

1.1 数据分析是什么?能解决什么问题?

  • 数据分析的三种类型:描述(发生了什么)、诊断(为什么发生)、预测(将要发生)
  • 数据从哪里来?数据在哪里?(建立数据感知)
  • 什么问题是数据能回答的?什么不能?

1.2 数据分析师的核心工作流

  • 完整流程:业务理解 → 数据获取 → 数据清洗 → 探索分析 → 建模预测 → 报告输出
  • 每个阶段的目标和产出是什么
  • 你会发现:写代码只是其中一小部分

1.3 常见业务场景与分析方法

  • 用户增长分析(AARRR模型)
  • 销售分析(趋势、构成、漏斗)
  • 用户分群与画像(RFM模型)
  • 风控与异常检测
  • 每个场景对应什么分析方法

1.4 本教程的学习方法

  • 不教语法细节,教"知道有什么、知道怎么问"
  • 如何向AI描述数据分析需求(提示词模板)
  • 实战驱动的学习路径

第二部分:数据获取 ------ 知道数据在哪里、怎么拿

2.1 数据存储的常见形式

  • 文件:CSV、Excel、JSON ------ 分别长什么样、什么时候用
  • 数据库:MySQL、SQLite ------ 公司的数据为什么存在这里
  • 数据仓库与数据湖 ------ 大公司的数据长什么样

2.2 本地文件读取

  • CSV文件:什么场景用、核心参数有哪些(编码、分隔符、只读前N行)
  • Excel文件:多Sheet怎么处理、合并单元格怎么处理
  • JSON文件:嵌套结构是什么意思、什么时候需要"展开"
  • 告诉AI你要做什么,它会生成代码

2.3 数据库读取(SQL概念理解)

  • 什么是SQL、为什么数据分析师必须懂SQL
  • SELECT:选哪几列
  • WHERE:筛选哪些行
  • GROUP BY:按什么分组汇总
  • JOIN:多张表怎么拼在一起
  • 你只需要知道这些动词是干什么的,语法交给AI

2.4 数据获取实战

  • 场景一:从MySQL取出最近30天订单
  • 场景二:读取Excel业务报表并处理合并单元格
  • 场景三:调用API获取JSON数据并展开

第三部分:数据体检 ------ 拿到数据先看什么

3.1 数据体检清单(6个核心问题)

  • 数据长什么样?有多少行多少列?每列是什么类型?哪些有缺失?数值分布如何?有哪些唯一值?

3.2 工具速查(pandas核心函数)

函数 干什么用的 什么时候用 输出长什么样
head() 看前几行 刚拿到数据,确认加载正确 一张小表格
info() 全身体检报告 必做操作,了解整体情况 行数、列数、类型、缺失、内存
dtypes 每列是什么类型 怀疑类型不对时 列名→类型
describe() 数值列统计摘要 了解分布、找异常值 计数、均值、分位数、最大最小值
unique() 有哪些不同取值 检查分类列 列表如['北京','上海']
value_counts() 每个值出现多少次 看分布、找脏数据 值→次数(排序后)

3.3 如何向AI描述体检需求

  • "帮我看一下这张表的基本情况"
  • "检查年龄列有没有异常值,比如0或超过120"
  • "看看城市列都有哪些不同的城市,统计每个城市的数量"

3.4 数据分析实战:体检报告

  • 用泰坦尼克号数据集做完整体检
  • 记录发现的问题清单(年龄有缺失、舱位等级是分类变量、登船港口有三个值)

第四部分:数据清洗 ------ 处理不完美的数据

4.1 缺失值处理

  • 什么是缺失值?为什么会出现?
  • 找缺失:怎么知道哪些列有缺失、缺了多少
  • 处理方法:删除、填充(均值/中位数/众数/前向填充)
  • 决策原则:什么时候删除、什么时候填充、用什么填充

4.2 重复值处理

  • 什么是重复值、怎么发现
  • 处理:保留一条还是全部删除
  • 业务判断:什么样的重复是"真重复"

4.3 异常值处理

  • 什么是异常值、怎么发现
  • 识别方法:业务常识、统计方法(IQR、Z-score简单了解)
  • 处理方式:删除、修正、单独分析

4.4 数据类型转换

  • 常见问题:数字存成了文本、日期存成了文本
  • 怎么发现类型问题(info() + 业务直觉)
  • 怎么告诉AI去转换类型

4.5 实战案例:泰坦尼克号数据清洗

  • 完整清洗流程
  • 输出:干净数据集 + 清洗日志

第五部分:探索性分析(EDA)------ 让数据说话

5.1 描述性统计

  • 均值 vs 中位数:什么时候用哪个
  • 标准差:数据波动有多大
  • 分位数:数据分布在哪儿
  • 重点是解读:这些数字告诉我们什么

5.2 分组对比分析

  • 为什么要分组(男 vs 女、新用户 vs 老用户)
  • 怎么分组(groupby的概念)
  • 核心能力:发现组间差异、找到业务洞察

5.3 相关性分析

  • 什么是相关、什么是不相关
  • 正相关 vs 负相关
  • 相关系数的解读(0.8意味着什么?0.1意味着什么?)
  • 重要提醒:相关 ≠ 因果

5.4 分布分析

  • 什么是分布、为什么要看分布
  • 正态分布长什么样
  • 偏态数据意味着什么(如收入分布:大部分人在左侧,少数高收入拉高均值)

5.5 EDA实战:电商用户行为分析

  • 分析框架:用户活跃度、转化漏斗、复购分析
  • 产出:业务洞察 + 可视化图表

第六部分:数据可视化 ------ 一图胜千言

6.1 图表选择指南(关键:什么场景用什么图)

想表达什么 用什么图
趋势变化(随时间) 折线图
数量对比 柱状图
占比 饼图/环形图(慎用)
分布 直方图/箱线图
相关性 散点图
多变量关系 热力图/散点图矩阵

6.2 各图表解读要点

  • 从折线图看出趋势(上升、下降、周期性)
  • 从柱状图看出差异(谁高谁低)
  • 从箱线图看出分布(中位数、异常值)
  • 重点是读图,不是画图

6.3 图表美化基础

  • 标题、坐标轴标签、图例
  • 颜色选择(哪些颜色放一起能看清)
  • 避免误导性图表(截断的Y轴、3D效果)

6.4 实战:制作分析报告级图表

  • 用Seaborn制作一组图表
  • 图表组合与排版
  • 直接用于PPT/报告

第七部分:建模预测入门 ------ 让数据预测未来

7.1 建模之前要知道的事

  • 什么是监督学习(有答案的学习)vs 无监督学习(无答案的分组)
  • 什么是训练集、测试集(别把答案提前泄露给模型)
  • 什么是特征、什么是标签

7.2 回归 ------ 预测一个数字

  • 什么时候用:预测价格、销量、温度
  • 线性回归是什么:找到一条最合适的线
  • 怎么评估模型好坏:预测值和真实值差多远(MSE、R²)
  • 不需要懂公式,知道原理即可

7.3 分类 ------ 预测一个类别

  • 什么时候用:流失预测(流失/不流失)、垃圾邮件判断
  • 逻辑回归是什么:输出一个概率(80%会流失)
  • 怎么评估模型好坏:准确率、召回率(抓到多少坏人)、精确率(抓的人里多少是坏人)
  • 重点:不同业务看不同指标(欺诈检测看重召回率,垃圾邮件看重视精确率)

7.4 聚类 ------ 发现自然分组

  • 什么时候用:用户分群、商品分组
  • K-Means是什么:自动分成K个组
  • 怎么确定K值(手肘法):找拐点
  • 重点:聚类结果要有业务解释意义

7.5 特征工程(知道这个概念就行)

  • 什么是特征:用来预测的信息
  • 常见特征类型:数值、分类、时间
  • 特征编码:把"男/女"变成0/1
  • 特征缩放:把年龄和收入拉到同一量级

7.6 实战案例

  • 案例一:房价预测(回归)
  • 案例二:泰坦尼克生存预测(分类)
  • 案例三:RFM用户分群(聚类)

第八部分:时间序列分析 ------ 处理带时间的数据

8.1 时间序列的特殊之处

  • 数据点之间不独立(今天的销量和昨天有关)
  • 时间维度的分析:趋势、季节性、周期

8.2 时间序列的组成部分

  • 趋势:长期方向(上升/下降/平稳)
  • 季节性:固定周期的波动(周末效应、双11)
  • 残差:剩余的随机波动

8.3 简单预测方法

  • 移动平均:平滑噪音、看趋势
  • 指数平滑:近期数据权重大
  • 目标:知道怎么预测,不要求掌握复杂公式

8.4 实战:销售额预测

  • 识别趋势和季节性
  • 选择合适的简单模型
  • 解读预测结果

第九部分:综合实战项目(3个完整项目)

项目一:电商销量预测

  • 业务背景:备货决策需要销量预测
  • 分析流程:数据清洗 → EDA → 特征工程 → 回归模型 → 评估
  • 产出:预测结果 + 业务建议

项目二:客户流失预警

  • 业务背景:提前识别高流失风险用户,做干预
  • 分析流程:数据清洗 → 特征构造 → 分类模型 → 评估(重点看召回率)→ 输出高风险名单
  • 产出:流失概率表 + 运营策略

项目三:用户画像与精细化运营

  • 业务背景:对不同用户群体采取不同运营策略
  • 分析流程:RFM构造 → K-Means聚类 → 群体特征分析 → 策略建议
  • 产出:用户分群表 + 差异化运营策略

第十部分:分析与报告 ------ 从数据到决策

10.1 提炼业务洞察

  • 特征重要性 → 翻译成人话("年龄是最重要的预测因子" → "年轻用户更容易流失")
  • 聚类中心 → 描述群体特征
  • 从数据到建议的转化

10.2 分析报告怎么写

  • 标准结构:背景 → 方法 → 发现 → 结论 → 建议
  • 面向不同受众的写法(老板看结论、业务看行动)
  • 一页纸摘要 vs 完整报告

10.3 数据故事讲述

  • 讲一个"问题 → 发现 → 行动 → 结果"的故事
  • 用图表说话,不让图表自己说话
  • 避免误导性表述("增长500%"可能是从1个到5个)

附录

A1 学习速查表

  • 核心函数卡片(函数名、做什么、什么时候用)
  • 业务场景 → 分析方法对照表
  • 常见问题 → 解决方案对照表

A2 如何向AI描述需求(提示词模板库)

  • 数据读取类
  • 数据清洗类
  • 探索分析类
  • 可视化类
  • 建模类

A3 公开数据集推荐

  • Kaggle、天池、UCI
  • 各数据集适合练习什么

A4 常见问题与解决思路

  • 内存不够怎么办
  • 数据太大跑不动怎么办
  • 模型效果不好怎么办

大纲设计说明

变化 原大纲 新大纲
代码细节 详细讲解语法参数 只告诉"用什么、做什么",代码由AI生成
工具讲解 按函数逐一讲解 按"解决什么问题"组织
可视化 讲Matplotlib/Seaborn语法 讲"什么场景选什么图"
SQL 详细语法 只讲6个核心动词的用途
篇幅 偏长 精简,保留核心概念
学习目标 学会写代码 学会分析思维 + 会用AI
相关推荐
70asunflower1 小时前
3.4 数据分析实战:体检报告
数据挖掘·数据分析
babe小鑫2 小时前
财务经理学数据分析可行性分析
信息可视化·数据挖掘·数据分析
babe小鑫2 小时前
2026市场投放学数据分析的价值分析
数据挖掘·数据分析
clarance20152 小时前
基于NLP的BI工具DataFocus实战:从自然语言查询到智能数据分析
人工智能·经验分享·自然语言处理·数据分析
源码之家3 小时前
计算机毕业设计:Python基于知识图谱与深度学习的医疗智能问答系统 Django框架 Bert模型 深度学习 知识图谱 大模型(建议收藏)✅
python·深度学习·机器学习·数据分析·flask·知识图谱·课程设计
yzx9910133 小时前
软件脚本定制开发:从需求到交付的技术实战指南
大数据·人工智能·数据挖掘
条俐开水喉3 小时前
U位资产×大数据分析:数据驱动的容量优化与风险防控
数据分析·u位资产管理
YangYang9YangYan3 小时前
2026营销新人学习数据分析的应用
学习·数据挖掘·数据分析
Sharewinfo_BJ4 小时前
上北智信携“智信BI”闪耀2026上海全球数据周,以灵活部署方案赋能企业数据价值跃升
大数据·人工智能·ai·数据挖掘·微软·powerbi