三面技术（运维）

2301_772579882024-07-31 23:15

1、说下hdfs读写流程

2、hdfs写的流程中block 大小为何是128m

A:block大小设置原则：最小化寻址开销,减少网络传输.

3、为什么HDFS中块（block）不能设置太大，也不能设置太小？

4、HDFS中块（block）的大小为什么设置为128M？

hdfs中存储以块的形式存储在DataNode，block块大小可以通过

HADOOP_HOME/etc/hadoop/hdfs-site.xml中dfs.blocksize实现（设置时先stop集群，修改完restart集群）。在Hadoop2.x之后的版本中，文件块的默认大小是128M，老版本中默认是64M；

5、你懂spark嘛？说下spark执行流程

6、doris和clickhouse比较

clickhouse做数据分析的数据库，拓展性不如doris。doris可以通过增加

7.数据迁移怎么做的？（数据迁移的步骤，纯听他人口述）

1、mysql中建有orcle对应的表，mysql有些数据类型不一样，比如：vachar,把orclr存

0、先备份orcle数据库

1、建好对应的表字段

2、

3、迁移过来，要确保数据一致性和完整性查：count(*)orcle 一般多少多少条（测试数据用的200多万条，每天大概增量数据 10个 200-300万条和全量数据有一千万）

4、看是否会漏字段，看新建字段是否一张表：自己看字段是否相同

5、在orcle和mysql

需求分析：

评估数据量

数据库orcle数据库备份

建好对应表

看orcle对应的数据类型和mysql有什么不一样，和orcle不一样的对应存储

写sqoop配置（写sqoop配置）--检测：全量的数据是否同步--先检查临时表