数据仓库面试题集&离线&实时

一、Flink面试问题集

1、flink+kafka 如何保证精准一次

  • 配置
  • 两阶段提交

2、Flink提交方式, 使用pre-job还是yarn-session模式,以及Application模式,好处?

3、Flink UV统计实现

  • set
  • 布隆过滤器+redis 有误差
  • HyperLogLog

4、Flink的CEP实现延迟支付提醒

5、Flink Join方式

6、Time-Watermark

7、动态表

8、Flink数据倾斜如何处理

二、Spark面试问题集

三、数据仓库

酒店行业数据仓库
数据仓库设计

1、数仓搭建规范说一下,表命名规范、数仓分层、数仓主题、数据域、业务域等

2、结合自己负责的业务主线,详细简述一个主题,业务流程、概念模型、实体节点

3、主题域-一级主题-业务过程 ,描述自己在这个过程中做了哪些事情

相关推荐
岑梓铭3 分钟前
(CentOs系统虚拟机)Standalone模式下安装部署“基于Python编写”的Spark框架
linux·python·spark·centos
喝醉酒的小白6 分钟前
Elasticsearch相关知识@1
大数据·elasticsearch·搜索引擎
边缘计算社区7 分钟前
首个!艾灵参编的工业边缘计算国家标准正式发布
大数据·人工智能·边缘计算
MZWeiei7 分钟前
Zookeeper的选举机制
大数据·分布式·zookeeper
MZWeiei7 分钟前
Zookeeper基本命令解析
大数据·linux·运维·服务器·zookeeper
学计算机的睿智大学生8 分钟前
Hadoop集群搭建
大数据·hadoop·分布式
szxinmai主板定制专家2 小时前
【国产NI替代】基于FPGA的32通道(24bits)高精度终端采集核心板卡
大数据·人工智能·fpga开发
ProtonBase2 小时前
如何从 0 到 1 ,打造全新一代分布式数据架构
java·网络·数据库·数据仓库·分布式·云原生·架构
TGB-Earnest4 小时前
【py脚本+logstash+es实现自动化检测工具】
大数据·elasticsearch·自动化