hive问题 - 技术栈

一、基础概念

问题：简述 Hive 的定义及核心作用？答案：Hive 是基于 Hadoop 的数据仓库工具，支持类 SQL（HQL）查询分析；核心作用是让非开发人员通过 SQL 分析 Hadoop 上的海量数据。
问题：Hive 的元数据默认存储在哪里？生产环境中为什么要替换为 MySQL？答案：默认存 Derby；生产换 MySQL 因 Derby 仅单用户、不支持并发，MySQL 支持多用户并发、数据持久化且易维护。
问题：Hive 支持哪些执行引擎？它们的区别是什么？答案：支持 MapReduce、Spark、Tez；核心区别是执行效率和架构 ------MapReduce 是批处理（稳定但慢），Spark 基于内存计算（快），Tez 优化 DAG（减少 IO）。
问题：Hive 自身是否存储业务数据？业务数据实际存储在哪个系统中？答案：Hive 不存业务数据；数据实际存在 HDFS（或对象存储），Hive 仅存元数据（表结构、分区等）。
问题：简述 Hive 与传统关系型数据库的核心区别？答案：Hive 基于 Hadoop，主打离线海量数据批处理、延迟高、无事务；传统库（如 MySQL）实时性强、存储规模小、支持事务和高频更新。
问题：Hive 的架构由哪几部分组成？各部分的功能是什么？答案：①用户接口（CLI/UI）：提交 HQL；②元数据存储（如 MySQL）：存表结构、分区等元数据；③Driver：解析、优化、执行 HQL；④执行引擎：执行计算任务；⑤HDFS：存储业务数据。
问题：Hive 支持的数据模型层级有哪些？分别说明其作用？答案：①数据库：隔离表，避免命名冲突；②表：映射 HDFS 上的文件 / 目录；③分区：按字段（如日期）分目录，减少查询扫描范围；④分桶：按字段哈希分文件，提升 join 和抽样效率。
问题：什么是 HQL？它与 SQL 的关系是什么？答案：HQL 是 Hive 的类 SQL 查询语言；兼容大部分 SQL 语法，但无事务、不支持实时更新，针对 Hadoop 分布式存储做了优化。
问题：Hive 适用于什么场景？不适用于什么场景？答案：适用于离线海量数据批处理（如日志分析、用户行为分析）；不适用于低延迟实时查询、高频数据更新的场景。
问题：为什么 Hive 的查询延迟较高？答案：基于 Hadoop 分布式架构（IO 密集型）、启动计算任务（如 MR/Spark）有开销、元数据操作耗时、默认全表扫描。

二、数据模型与表操作

问题：Hive 中的管理表和外部表有什么区别？如何选择使用？答案：区别 ------ 管理表删除时会同时删除 HDFS 数据；外部表删除时仅删除元数据，HDFS 数据保留。选择 ------ 数据需复用选外部表，临时数据选管理表。
问题：什么是分区表？创建分区表的语法是什么？答案：分区表是按字段（如 dt）将数据分目录存储的表，用于减少扫描范围。创建语法：CREATE TABLE t (id int) PARTITIONED BY (dt string);
问题：分区表新增分区的 SQL 语句怎么写？答案：ALTER TABLE t ADD PARTITION (dt='20260106');
问题：什么是分桶表？分桶表的作用是什么？答案：分桶表是按字段哈希值将数据分文件存储的表；作用是提升 join 效率、支持高效数据抽样。
问题：分桶表与分区表的核心区别是什么？答案：分区是按字段值分目录（手动指定分区），减少扫描范围；分桶是按字段哈希分文件（自动分桶），提升查询和 join 性能。
问题：Hive 中常用的文件格式有哪些？列式存储格式的优势是什么？答案：常用格式：TextFile、ORC、Parquet；列式存储优势：只读取查询需要的列，压缩比高，大幅减少 IO。
问题：如何删除 Hive 表的某个分区？答案：ALTER TABLE t DROP PARTITION (dt='20260106');
问题：Hive 中管理表和外部表清空后有什么区别？答案：管理表清空（TRUNCATE）会删除 HDFS 对应数据；外部表不支持 TRUNCATE 操作，执行会报错。
问题：动态分区和静态分区的区别是什么？启用动态分区需要设置什么参数？答案：区别 ------ 静态分区手动指定分区值；动态分区从数据中自动提取分区值。启用参数：hive.exec.dynamic.partition=true; hive.exec.dynamic.partition.mode=nonstrict。
问题：如何查看 Hive 表的结构信息？答案：基础结构：DESC t;；详细结构（含存储路径、格式）：DESC FORMATTED t;

三、HQL 语法与操作

问题：Hive 中加载本地文件到表的命令是什么？加载 HDFS 文件和本地文件的区别是什么？答案：加载本地文件命令：LOAD DATA LOCAL INPATH '/local/path' INTO TABLE t;；区别 ------LOCAL 是从本地系统复制文件到 HDFS；无 LOCAL 是从 HDFS 移动文件到表对应目录。
问题：写出将 Hive 表数据导出到本地目录的 SQL 语句？答案：INSERT OVERWRITE LOCAL DIRECTORY '/local/out/path' SELECT * FROM t;
问题：Hive 支持哪些 JOIN 类型？分别说明其含义？答案：①内连接（INNER JOIN）：只返回两表匹配的行；②左连接（LEFT JOIN）：左表所有行，右表匹配行，无匹配则补 NULL；③右连接（RIGHT JOIN）：右表所有行，左表匹配行，无匹配则补 NULL；④全连接（FULL JOIN）：返回两表所有行，无匹配则补 NULL。
问题：GROUP BY 和 HAVING 的作用是什么？ HAVING 和 WHERE 的区别是什么？答案：GROUP BY：按指定字段对数据分组；HAVING：过滤分组后的聚合结果。区别 ------WHERE 过滤原始数据 （不支持聚合函数）；HAVING 过滤分组聚合后的数据（支持聚合函数）。
问题：ORDER BY 和 SORT BY 的区别是什么？答案：ORDER BY：全局排序（仅用 1 个 Reducer，慢，适合小数据）；SORT BY：每个 Reducer 内局部排序（快，适合大数据，无全局有序）。
问题：如何在 Hive 中创建数据库？如果数据库已存在，如何避免报错？答案：创建语句：CREATE DATABASE IF NOT EXISTS db_name;；IF NOT EXISTS 用于避免数据库已存在时报错。
问题：写出修改表名的 SQL 语句？答案：ALTER TABLE old_table_name RENAME TO new_table_name;
问题：Hive 中插入数据的方式有哪些？ INSERT INTO 和 INSERT OVERWRITE 的区别是什么？答案：插入方式：INSERT INTO/OVERWRITE、LOAD DATA、CREATE TABLE AS SELECT。区别 ------INSERT INTO 是追加数据；INSERT OVERWRITE 是覆盖表中已有数据。
问题：如何查询 Hive 中所有的数据库？答案：SHOW DATABASES;
问题：分桶表的数据导入为什么不能使用 LOAD DATA，而需要使用 INSERT？答案：LOAD DATA 仅移动 / 复制文件，不执行分桶哈希逻辑；INSERT 会触发 Hive 的分桶机制，按字段哈希将数据写入对应分桶文件。

四、性能优化

问题：Hive 性能优化的核心目标是什么？有哪些常见的优化方向？答案：核心目标：降低查询延迟、提升资源利用率。常见方向：使用列式存储、分区 / 分桶、解决数据倾斜、调整执行引擎、优化并行度。
问题：列式存储格式（ORC/Parquet）为什么能提升查询效率？答案：列式存储只读取查询需要的列，避免读取无关列；压缩比更高，减少磁盘 IO 和网络传输开销。
问题：数据倾斜是什么？Hive 中如何处理分组统计时的数据倾斜？答案：数据倾斜是指某一个或几个 Reducer 处理的数据量远大于其他 Reducer，导致任务执行缓慢。处理方法：分组字段加随机前缀、小表广播（Map Join）、调整分区策略。
问题：为什么要将 Hive 的执行引擎从 MapReduce 替换为 Spark？答案：Spark 基于内存计算，比 MapReduce（磁盘 IO 密集）执行速度更快；任务启动开销更小，支持 DAG 优化。
问题：动态分区的非严格模式和严格模式有什么区别？生产环境中常用哪种模式？答案：区别 ------ 严格模式要求至少有一个静态分区；非严格模式允许全动态分区。生产常用非严格模式，灵活性更高。
问题：Hive 中如何设置合理的 reduce 任务数量？答案：①通过参数 mapred.reduce.tasks 手动指定；②根据数据量自动计算（通常每 1~2GB 数据设置 1 个 Reduce）。
问题：内置函数 explode 属于哪一类函数？它的作用是什么？答案：属于表生成函数（UDTF）；作用是将数组（Array）或键值对（Map）类型的字段拆分成多行数据。