数仓建模---数仓建模和业务建模_数仓建模 业务过程 新增 活跃 留存 流失 回流-CSDN博客
数据仓库实战教程
- 数仓建模
- 数仓⼯具
- Hive
1.Hive 基础篇
2.Hive 语法篇
3.Hive 进阶篇
4.Hive 源码篇 - Hive 实战篇
- ⾼性能查询引擎
1.Spark-SQL
2.Impala
3.Presto
4.Druid - 数据同步⼯具
- 数据湖
- 调度⼯具
- 调度⼯具的使⽤
- 调度⼯具整合
- 元数据管理⼯具
- 监控⼯具
- 报表⼯具
- 实时数仓
- 数据资产
- 数仓实战
- K12 赛道 Top 公司的数仓建设案例
- 知名游戏公司的数仓建设案例
- ⼤型⽀付公司实时数仓建设案例
总结
数据仓库实战教程
读者交流群已经开通了,有需要的可以私信进⼊读者交流群
数据仓库已经是企业的数据竞争的核⼼了,学好数据仓库对提⾼⾃⼰和找到⼀份好的⼯作都⾄关重要,但是很多⼈
对数仓的印象还是停留在写 SQL 的层⾯ , 其实今天的数仓更像是⼀个数据平台应⽤ , 我们学习的⼤数据技术其实最终
的价值都体现在数据服务上,数仓是数据服务的基⽯,如果说业界以前还有离线和实时之分的话,那么现在实时数
仓的提出与落地,未来数仓将是数据战争的最激烈的战场,⼀切⼤数据技术都将为数仓提供服务,也都将在数仓这
⼀环节进⾏收⼝。
本专栏主要专注于数仓⼯具学习、数仓建模以及业务建模、 SQL 实战和平台建设,最后以 3 家公司的数仓建建设和
实时数仓作为结尾项⽬,这份教程有以下特点 - 知识体系完善,从数仓的概念、建模、数仓⼯具的使⽤、数仓的落地实践都有,还会有很多⼩案例
- 使⽤的技术都是当前企业最常⽤的技术,版本也是⽐较新的,不会导致⼤家看到⼀个代码,然后⼀执⾏发现
语法不⽀持或者废弃掉了 - 后续的更新也会很及时,不会说更新了⼀段时间断更了,在更新完⼤纲之后,我也会不断完善该系列,不断 添加新的知识点
- 创作团队都是在企业⼀线员⼯,实战多于理论,还有很多经典的⾯试题,例如拉链表的优化、计算连续登
陆、连续增⻓、最⼤在线⽤户数
适合⼈群 - ⼩⽩对数仓感兴趣同学
- 有数仓经验但是缺乏全⾯认识的同学
1. 数仓建模
数仓建模 --- 数仓初识
数仓建模 --- 数仓架构发展史
数仓建模 --- 数仓建模⽅法论
数仓建模 --- 分层建设理论
数仓建模 --- 数据治理
数仓建模 --- 指标体系建设
数仓建模 --- 数据模型
数仓建模 --- 宽表的设计
数仓建模 --- 埋点设计与管理
数仓建模 ---ID Mapping( 上 )
数仓建模 ---ID Mapping( 下 )
数仓建模 ---OneID 落地实践
数仓建模 --- 数据集成
数仓建模 --- 元数据管理
数仓建模 --- ⾃助分析
数仓建模 --- 建模⼯具 PDMan(CHINER) ⼊⻔介绍
数仓建模 --- 事实表
数仓建模 --- 维度表
数仓建模 --- 数仓建模实战 ( 建模流程 / 建模⼯具 )
数仓建模 --- 数仓建模 --- 数据集市 (DM)
数仓建模 --- 总线矩阵
数仓建模 --- 数据安全
数仓建模 --- 数据域
数仓建模 --- 数据质量
数仓建模 --- 数仓开发规范
数仓建模 --- 实时数仓架构发展史
数仓建模 --- 数据地图
数仓建模 --- 数仓建模和业务建模
数仓建模 --- 雪花模型和星型模型
数仓建模 ---OneData 体系
数仓建模 --- 数据资产管理
数仓建模 --- 事实表和维度表设计规范
数仓建模 --- 表设计规范
数仓建模 --- 数据同步⽅案设计
数仓建模 --- 美团 DB 数据同步到数据仓库的架构与实践
数仓建模 --- 数据领域常⻅概念与职位划分
数仓建模 --- ⽤户画像
数仓建模 --- 数据驱动业务
2. 数仓⼯具
1. Hive
1.Hive 基础篇 - 什么是 Hive
- Hive 的编译安装
- Hive 表的基础操作
- Hive 数据的组织管理⽅式
- Hive 内部表和外部表
- Hive 动态分区
- Hive 命令⾏
- Hive 基本数据类型
- Hive 复合数据类型
- Hive Streaming
- Hive 关键字 12. Hive 函数⼤全
- Hive 的架构设计
- Hive 架构之 HiveServer2
- Hive 的其他语⾔调⽤
- Hive 架构服务
- Hive 的严格模式和本地模式
- Hive 的执⾏引擎
- Hive 视图和物化视图
- Hive UDF
- Metastore
22.MetaStore 的 standalone 模式和⾼可⽤
2.Hive 语法篇 - Json 解析
- like rlike regexp
- explode 和 lateral view
- with as 和 from
- Order by, Sort by ,Dristribute by,Cluster By
- grouping sets
- cube 和 rollup
- map join 、 reduce join 、 smb join
- 窗⼝函数初识 max count sum
- 窗⼝函数 row_number 、 rank 、 dense_rank
- 窗⼝函数 ntile
- 窗⼝函数 first_value 和 last_value
- 窗⼝函数 lead 和 lag
- 窗⼝函数 cume_dist 和 percent_rank
- 窗⼝函数练习和总结
- Hive 语法之抽样
- collect_set 和 collect_list
- ⾏列转换
- Hive 语法之⼦查询
20.Hive 语法之物理分组
3.Hive 进阶篇 - Hive 进阶之索引
- Hive 进阶之事务初识
- Hive 进阶之事务深度剖析
- Hive 进阶之执⾏计划
- Hive 进阶之数据存储格式
- Hive 进阶之数据压缩配置与格式
- Hive 进阶之 SerDe
8 Hive 进阶之权限管理 - Hive 优化指南
11.Hive 进阶之优化 map 任务数量
12.Hive 进阶之优化 reduce 任务数量
13.Hive 进阶之优化⼩⽂件问题
14.Hive 进阶之谓词下推
15.Hive 进阶之归档
4.Hive 源码篇 - 源码环境搭建
- cli 模块
- CliDriver
- Beeline/HiveCli
- 扩展篇 Thrift
5. Hive 实战篇 - UDF 分词
- UDF IP 解析
- UDF SQL 解析
- 拉链表
- ⽤户⾏为记录 session 分割
- 最⼤连续登陆
- 留存分析
- 各种 join 的经典应⽤
- 漏⽃分析
- 累计计算
- 占⽐同⽐环⽐
- ⾃关联经典案例
- ⽇活跃周活跃⽉活
- full join 经典案例
- UDF 外部依赖⽂件找不到
- 对⽐分析
- 事件序列匹配 / 复杂事件处理
- UDF GIS
- 描述性计算
- 滑动 / 滚动时间窗⼝计算
2. ⾼性能查询引擎
1.Spark-SQL - Spark 初识
- Spark SQL 初识
- 股票数据分析
- 股票打板策略分析
2.Impala
3.Presto
4.Druid
3. 数据同步⼯具
4. 数据湖
数据湖 --- 数据湖初识
数据湖 --- 数据湖再识
数据湖 ---Delta Lake 概论
数据湖 ---Delta lake 与湖仓⼀体
数据湖 ---Spark SQL Scala 版 使⽤ Delta Lake
数据湖 ---Spark SQL Shell 版 使⽤ Delta Lake
数据湖 ---Spark SQL SQL 版 使⽤ Delta Lake 数据湖 ---Spark SQL Python 版 使⽤ Delta Lake
数据湖 ---Spark Streaming 使⽤ Delta Lake
数据湖 ---Delta Lake 事务⽇志
数据湖 ---Delta Lake 事务⽇志实践
数据湖 ---Delta Lake 时间旅⾏
数据湖 ---Delta Lake 版本管理
数据湖 ---Delta Lake DML 内部原理
数据湖 ---Delta Lake 1.0 版本功能预览
数据湖 ---Delta Lake Schema 约束与演化
数据湖 ---Delta Lake 并发控制
数据湖 ---Delta Lake 实践指南
数据湖 ---Delta Lake 与实时计算
5. 调度⼯具
1. 调度⼯具的使⽤
2. 调度⼯具整合
⾸先我们会创建常⽤的脚本然后配合配合数仓的 SQL 进⾏数仓的整体的调度,脚本的话我们主要有抽数的脚本、执
⾏ SQL 的脚本、监控的脚本、发布脚本
当然我们还会引⼊版本管理⼯具,管理我们的 SQL 和脚本,然后进⾏发布
6. 元数据管理⼯具
7. 监控⼯具
8. 报表⼯具
9. 实时数仓
10. 数据资产
3. 数仓实战
1. K12 赛道 Top 公司的数仓建设案例
2. 知名游戏公司的数仓建设案例 3. ⼤型⽀付公司实时数仓建设案例
总结
以 hadoop 作为基础⽣态,从 0 到进⾏数仓建设,主要分为基础篇和实战篇两部分,基础篇主要是各种组件的学习
和案例,实战篇主要是三家企业的数仓设计案例,最后是扩展篇主要是实时数仓。