hadoop平台问题总结

1、解决spark有数据,tez读不到数据问题

递归子目录作为输入,得开启

mapreduce.input.fileinputformat.input.dir.recursive = true;

递归子目录作为输入,spark.sql.sources.recursiveFileLookup=true;

2、解决tez有数据,spark读不到的问题

spark.sql.hive.convertMetastoreParquet 用于控制是否使用 Spark 原生的 Parquet 实现。

true:使用 Spark 内置的 Parquet 数据源(更快、功能更全)

false:使用 Hive 的 SerDe 来读取 Parquet 文件

true(Spark 2.0+ 默认)false(Spark 1.x 默认)

3、解决with as 时候类似的 子句被接取不执行的问题。

set hive.optimize.cte.materialize.threshold=-1;

控制 Hive 是否将 CTE(WITH 子句)的结果物化(materialize)到临时表中,以避免重复计算。

4、解决无数据创建分区的问题

SET hive.exec.max.created.files = -1;

-- 问题SQL:没有数据也会创建分区元数据

INSERT INTO TABLE target_table PARTITION(dt='20251214')

SELECT * FROM source_table WHERE 1=0; -- 无数据

结果:

在Hive元数据中创建分区:dt=20251214

不创建HDFS目录:/user/hive/warehouse/target_table/dt=20251214/

查询时报错:Partition not found 或 File not found

相关推荐
大大大大晴天8 小时前
Hudi Metadata Table 与 Hive Sync (HMS)怎么选?
大数据
手可摘星辰77716 小时前
一次线上FlinkCDC异常排查复盘
大数据·flink
大大大大晴天16 小时前
Hudi技术内幕:Metadata Table原理与实践
大数据
大大大大晴天2 天前
Hudi技术内幕:深入解析Index索引机制
大数据
阿里云大数据AI技术2 天前
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式
大数据·flink
SelectDB2 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
大大大大晴天6 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB6 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI6 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI6 天前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop