数据集成面试题

Flume

一、flume组成

sql 复制代码
--Agent
Flume的部署单元,本质上是一个JVM进程,Agent主要由Source、Channel、Sink三个部分组成
--Source
收集数据,以event为单元进行封装发送给channel
参数配置:当采集速度比较慢,调整batchSize参数,该参数决定了source 一次批量运输events到channel 的条数
--Channel
Source接收的数据会被发送到Channel缓冲区暂时存储
参数配置:选择内存(memory)时,channel性能最好,选择磁盘(file)时,安全性高,但是性能差
--Sink
用于将Channel中的数据发送到外部数据源。
参数配置:调整batchsize参数,决定了sink一次批量从channel 读取的events条数

二、flume的事务机制

sql 复制代码
flume使用两个独立事务put和take,分别负责从source 到channel 、channel 到sink,记录事件状态,保证两个过程的数据不会丢失

三、flume的数据会丢失吗?

sql 复制代码
根据flume的事务机制,flume的数据一般不会丢失,除非使用的时候memory channel ,在机器宕机的时候会导致数据丢失,或者channel 满了,sources无法写入导致数据丢失.
此外,也有可能完成数据重复,比如sink接收到一批数据,处理到一半宕机了,处理完的数据没有给channel 发送响应,导致channel 重新发送数据,造成数据重复。

四、flume的适用场景?

sql 复制代码
1、大规模数据的离线采集
2、日志收集与聚合
3、实时数据采集

Sqoop

一、sqoop使用场景

sql 复制代码
sqoop用于关系型数据库(如Mysql、Oracle、SQL Server)与hdfs之间的数据传输

二、Sqoop底层运行的任务是什么

sql 复制代码
Sqoop会为数据传输生成MapReduce作业,但是Sqoop的MapReduce任务只有Map阶段,没有Reduce阶段。

DataX

一、简单介绍一下DataX(DataX使用场景)

sql 复制代码
DataX是一个由阿里巴巴开源的离线数据同步工具,实现包括主流关系型数据库、NoSQL、大数据计算系统在内的多种异构数据源之间数据同步功能。

二、DataX架构介绍

sql 复制代码
--Reader
负责采集数据源的数据,将数据发送给Framework
--Framework
用于连接reader和writer,作为两者的数据传输通道,并处理缓冲、流控、并发、数据转换等核心技术问题。
--Writer
负责不断向Framework取数据,并将数据写入到目的端

三、 DataX的使用

sql 复制代码
基于官网提供的JSON格式配置文件模版,选择对应的读写插件,根据实际情况修改相关配置,最后使用dataX命令提交运行即可
相关推荐
亿牛云爬虫专家17 小时前
基于CefSharp内核与动态隧道的金融海量行情抓取架构方案
金融·数据采集·爬虫代理·动态代理·数据抓取·cefsharp·动态隧道
鲁邦通物联网2 天前
储能系统数据采集与监控一体化融合架构设计:基于边缘微服务并发本地 Web 监控与 MQTT 上云的实现
数据采集·工业数据采集·边缘网关·边缘计算网关·物联网网关·5g数采·边缘计算盒子
捷米特网关模块通讯2 天前
EtherNet/IP 转 CC-Link IE 工业 PLC 网关稳定对接罗克韦尔与三菱系统
网关·数据采集·三菱plc·工业自动化
远创智控研发中心013 天前
从传统装配到智能智造:新能源电池 PACK 产线借西门子 S7-400/S7-1500 以太网通讯实现升级
数据采集·西门子plc·以太网模块·工业自动化·协议转化网关
捷米特网关模块通讯3 天前
EtherNet/IP 转 Profinet 协议模块实现多台托利多吊秤统一接入 PLC 系统
数据采集·罗克韦尔plc·以太网模块·工业自动化·工业智能网关
捷米特网关模块通讯3 天前
EtherNet/IP 转 RS232工业 PLC 网关节约 PLC 接口简化产线布线施工
数据采集·罗克韦尔plc·工业自动化·变频器·网关模块
捷米特网关模块通讯4 天前
EtherNet/IP转CC-Link IE工业PLC网关简化跨系统设备运维
数据采集·三菱plc·罗克韦尔plc·工业自动化
捷米特网关模块通讯4 天前
EtherNet/IP 转 RS232工业数据采集网关支持变频器柔性扩容无需改 PLC 程序
数据采集·罗克韦尔plc·工业自动化·rs232·总线协议
鲁邦通物联网5 天前
储能异构设备接入架构:基于低代码引擎的边缘协议转换与动态映射实现详解
数据采集·工业数据采集·边缘网关·边缘计算网关·物联网网关·5g数采·边缘计算盒子
RestCloud5 天前
2026年企业级ETL工具选型指南:从开源DataX到商业化ETLCloud的演进
数据仓库·开源·etl·datax·数据处理·数据集成·数据传输