数据仓库理论与实战

数仓建模---数仓建模和业务建模_数仓建模业务过程新增活跃留存流失回流-CSDN博客
数据仓库实战教程

数仓建模
数仓⼯具
Hive
1.Hive 基础篇
2.Hive 语法篇
3.Hive 进阶篇
4.Hive 源码篇
Hive 实战篇
⾼性能查询引擎
1.Spark-SQL
2.Impala
3.Presto
4.Druid
数据同步⼯具
数据湖
调度⼯具
调度⼯具的使⽤
调度⼯具整合
元数据管理⼯具
监控⼯具
报表⼯具
实时数仓
数据资产
数仓实战
K12 赛道 Top 公司的数仓建设案例
知名游戏公司的数仓建设案例
⼤型⽀付公司实时数仓建设案例
总结
数据仓库实战教程
读者交流群已经开通了，有需要的可以私信进⼊读者交流群
数据仓库已经是企业的数据竞争的核⼼了，学好数据仓库对提⾼⾃⼰和找到⼀份好的⼯作都⾄关重要，但是很多⼈
对数仓的印象还是停留在写 SQL 的层⾯ , 其实今天的数仓更像是⼀个数据平台应⽤ , 我们学习的⼤数据技术其实最终
的价值都体现在数据服务上，数仓是数据服务的基⽯，如果说业界以前还有离线和实时之分的话，那么现在实时数
仓的提出与落地，未来数仓将是数据战争的最激烈的战场，⼀切⼤数据技术都将为数仓提供服务，也都将在数仓这
⼀环节进⾏收⼝。
本专栏主要专注于数仓⼯具学习、数仓建模以及业务建模、 SQL 实战和平台建设，最后以 3 家公司的数仓建建设和
实时数仓作为结尾项⽬，这份教程有以下特点
知识体系完善，从数仓的概念、建模、数仓⼯具的使⽤、数仓的落地实践都有，还会有很多⼩案例
使⽤的技术都是当前企业最常⽤的技术，版本也是⽐较新的，不会导致⼤家看到⼀个代码，然后⼀执⾏发现
语法不⽀持或者废弃掉了
后续的更新也会很及时，不会说更新了⼀段时间断更了，在更新完⼤纲之后，我也会不断完善该系列，不断添加新的知识点
创作团队都是在企业⼀线员⼯，实战多于理论，还有很多经典的⾯试题，例如拉链表的优化、计算连续登
陆、连续增⻓、最⼤在线⽤户数
适合⼈群
⼩⽩对数仓感兴趣同学
有数仓经验但是缺乏全⾯认识的同学
1. 数仓建模
数仓建模 --- 数仓初识
数仓建模 --- 数仓架构发展史
数仓建模 --- 数仓建模⽅法论
数仓建模 --- 分层建设理论
数仓建模 --- 数据治理
数仓建模 --- 指标体系建设
数仓建模 --- 数据模型
数仓建模 --- 宽表的设计
数仓建模 --- 埋点设计与管理
数仓建模 ---ID Mapping( 上 )
数仓建模 ---ID Mapping( 下 )
数仓建模 ---OneID 落地实践
数仓建模 --- 数据集成
数仓建模 --- 元数据管理
数仓建模 --- ⾃助分析
数仓建模 --- 建模⼯具 PDMan(CHINER) ⼊⻔介绍
数仓建模 --- 事实表
数仓建模 --- 维度表
数仓建模 --- 数仓建模实战 ( 建模流程 / 建模⼯具 )
数仓建模 --- 数仓建模 --- 数据集市 (DM)
数仓建模 --- 总线矩阵
数仓建模 --- 数据安全
数仓建模 --- 数据域
数仓建模 --- 数据质量
数仓建模 --- 数仓开发规范
数仓建模 --- 实时数仓架构发展史
数仓建模 --- 数据地图
数仓建模 --- 数仓建模和业务建模
数仓建模 --- 雪花模型和星型模型
数仓建模 ---OneData 体系
数仓建模 --- 数据资产管理
数仓建模 --- 事实表和维度表设计规范
数仓建模 --- 表设计规范
数仓建模 --- 数据同步⽅案设计
数仓建模 --- 美团 DB 数据同步到数据仓库的架构与实践
数仓建模 --- 数据领域常⻅概念与职位划分
数仓建模 --- ⽤户画像
数仓建模 --- 数据驱动业务
2. 数仓⼯具
1. Hive
1.Hive 基础篇
什么是 Hive
Hive 的编译安装
Hive 表的基础操作
Hive 数据的组织管理⽅式
Hive 内部表和外部表
Hive 动态分区
Hive 命令⾏
Hive 基本数据类型
Hive 复合数据类型
Hive Streaming
Hive 关键字 12. Hive 函数⼤全
Hive 的架构设计
Hive 架构之 HiveServer2
Hive 的其他语⾔调⽤
Hive 架构服务
Hive 的严格模式和本地模式
Hive 的执⾏引擎
Hive 视图和物化视图
Hive UDF
Metastore
22.MetaStore 的 standalone 模式和⾼可⽤
2.Hive 语法篇
Json 解析
like rlike regexp
explode 和 lateral view
with as 和 from
Order by, Sort by ,Dristribute by,Cluster By
grouping sets
cube 和 rollup
map join 、 reduce join 、 smb join
窗⼝函数初识 max count sum
窗⼝函数 row_number 、 rank 、 dense_rank
窗⼝函数 ntile
窗⼝函数 first_value 和 last_value
窗⼝函数 lead 和 lag
窗⼝函数 cume_dist 和 percent_rank
窗⼝函数练习和总结
Hive 语法之抽样
collect_set 和 collect_list
⾏列转换
Hive 语法之⼦查询
20.Hive 语法之物理分组
3.Hive 进阶篇
Hive 进阶之索引
Hive 进阶之事务初识
Hive 进阶之事务深度剖析
Hive 进阶之执⾏计划
Hive 进阶之数据存储格式
Hive 进阶之数据压缩配置与格式
Hive 进阶之 SerDe
8 Hive 进阶之权限管理
Hive 优化指南
11.Hive 进阶之优化 map 任务数量
12.Hive 进阶之优化 reduce 任务数量
13.Hive 进阶之优化⼩⽂件问题
14.Hive 进阶之谓词下推
15.Hive 进阶之归档
4.Hive 源码篇
源码环境搭建
cli 模块
CliDriver
Beeline/HiveCli
扩展篇 Thrift
5. Hive 实战篇
UDF 分词
UDF IP 解析
UDF SQL 解析
拉链表
⽤户⾏为记录 session 分割
最⼤连续登陆
留存分析
各种 join 的经典应⽤
漏⽃分析
累计计算
占⽐同⽐环⽐
⾃关联经典案例
⽇活跃周活跃⽉活
full join 经典案例
UDF 外部依赖⽂件找不到
对⽐分析
事件序列匹配 / 复杂事件处理
UDF GIS
描述性计算
滑动 / 滚动时间窗⼝计算
2. ⾼性能查询引擎
1.Spark-SQL
Spark 初识
Spark SQL 初识
股票数据分析
股票打板策略分析
2.Impala
3.Presto
4.Druid
3. 数据同步⼯具
4. 数据湖
数据湖 --- 数据湖初识
数据湖 --- 数据湖再识
数据湖 ---Delta Lake 概论
数据湖 ---Delta lake 与湖仓⼀体
数据湖 ---Spark SQL Scala 版使⽤ Delta Lake
数据湖 ---Spark SQL Shell 版使⽤ Delta Lake
数据湖 ---Spark SQL SQL 版使⽤ Delta Lake 数据湖 ---Spark SQL Python 版使⽤ Delta Lake
数据湖 ---Spark Streaming 使⽤ Delta Lake
数据湖 ---Delta Lake 事务⽇志
数据湖 ---Delta Lake 事务⽇志实践
数据湖 ---Delta Lake 时间旅⾏
数据湖 ---Delta Lake 版本管理
数据湖 ---Delta Lake DML 内部原理
数据湖 ---Delta Lake 1.0 版本功能预览
数据湖 ---Delta Lake Schema 约束与演化
数据湖 ---Delta Lake 并发控制
数据湖 ---Delta Lake 实践指南
数据湖 ---Delta Lake 与实时计算
5. 调度⼯具
1. 调度⼯具的使⽤
2. 调度⼯具整合
⾸先我们会创建常⽤的脚本然后配合配合数仓的 SQL 进⾏数仓的整体的调度，脚本的话我们主要有抽数的脚本、执
⾏ SQL 的脚本、监控的脚本、发布脚本
当然我们还会引⼊版本管理⼯具，管理我们的 SQL 和脚本，然后进⾏发布
6. 元数据管理⼯具
7. 监控⼯具
8. 报表⼯具
9. 实时数仓
10. 数据资产
3. 数仓实战
1. K12 赛道 Top 公司的数仓建设案例
2. 知名游戏公司的数仓建设案例 3. ⼤型⽀付公司实时数仓建设案例
总结
以 hadoop 作为基础⽣态，从 0 到进⾏数仓建设，主要分为基础篇和实战篇两部分，基础篇主要是各种组件的学习
和案例，实战篇主要是三家企业的数仓设计案例，最后是扩展篇主要是实时数仓。