数据仓库面试题集&离线&实时

一、Flink面试问题集

1、flink+kafka 如何保证精准一次

  • 配置
  • 两阶段提交

2、Flink提交方式, 使用pre-job还是yarn-session模式,以及Application模式,好处?

3、Flink UV统计实现

  • set
  • 布隆过滤器+redis 有误差
  • HyperLogLog

4、Flink的CEP实现延迟支付提醒

5、Flink Join方式

6、Time-Watermark

7、动态表

8、Flink数据倾斜如何处理

二、Spark面试问题集

三、数据仓库

酒店行业数据仓库
数据仓库设计

1、数仓搭建规范说一下,表命名规范、数仓分层、数仓主题、数据域、业务域等

2、结合自己负责的业务主线,详细简述一个主题,业务流程、概念模型、实体节点

3、主题域-一级主题-业务过程 ,描述自己在这个过程中做了哪些事情

相关推荐
island13141 小时前
【git#4】分支管理 -- 知识补充
大数据·git·elasticsearch
LCHub低代码社区1 小时前
钧瓷产业原始创新的许昌共识:技术破壁·产业再造·生态重构(一)
大数据·人工智能·维格云·ai智能体·ai自动化·大禹智库·钧瓷码
晴天彩虹雨2 小时前
Flink 数据清洗与字段标准化最佳实践
大数据·数据仓库·flink
一个数据大开发2 小时前
解读《数据资产质量评估实施规则》:企业数据资产认证落地的关键指南
大数据·数据库·人工智能
TTBIGDATA2 小时前
如何将 Apache Hudi 接入 Ambari?完整部署与验证指南
大数据·hadoop·ambari·hudi·bigtop·湖仓·自定义组件集成
什么芮.3 小时前
spark-streaming
pytorch·sql·spark·kafka·scala
科技在线3 小时前
科技赋能建筑新未来:中建海龙模块化建筑产品入选中国建筑首批产业化推广产品
大数据·人工智能
桑榆08064 小时前
Kafka简介
spark·kafka
24k小善4 小时前
Flink TaskManager详解
java·大数据·flink·云计算
时序数据说4 小时前
时序数据库IoTDB在航空航天领域的解决方案
大数据·数据库·时序数据库·iotdb