hadoop平台问题总结

1、解决spark有数据,tez读不到数据问题

递归子目录作为输入,得开启

mapreduce.input.fileinputformat.input.dir.recursive = true;

递归子目录作为输入,spark.sql.sources.recursiveFileLookup=true;

2、解决tez有数据,spark读不到的问题

spark.sql.hive.convertMetastoreParquet 用于控制是否使用 Spark 原生的 Parquet 实现。

true:使用 Spark 内置的 Parquet 数据源(更快、功能更全)

false:使用 Hive 的 SerDe 来读取 Parquet 文件

true(Spark 2.0+ 默认)false(Spark 1.x 默认)

3、解决with as 时候类似的 子句被接取不执行的问题。

set hive.optimize.cte.materialize.threshold=-1;

控制 Hive 是否将 CTE(WITH 子句)的结果物化(materialize)到临时表中,以避免重复计算。

4、解决无数据创建分区的问题

SET hive.exec.max.created.files = -1;

-- 问题SQL:没有数据也会创建分区元数据

INSERT INTO TABLE target_table PARTITION(dt='20251214')

SELECT * FROM source_table WHERE 1=0; -- 无数据

结果:

在Hive元数据中创建分区:dt=20251214

不创建HDFS目录:/user/hive/warehouse/target_table/dt=20251214/

查询时报错:Partition not found 或 File not found

相关推荐
子榆.7 小时前
CANN 性能分析与调优实战:使用 msprof 定位瓶颈,榨干硬件每一分算力
大数据·网络·人工智能
新芒8 小时前
暖通行业两位数下滑,未来靠什么赢?
大数据·人工智能
忆~遂愿8 小时前
CANN ATVOSS 算子库深度解析:基于 Ascend C 模板的 Vector 算子子程序化建模与融合优化机制
大数据·人工智能
艾莉丝努力练剑9 小时前
【Linux:文件】Ext系列文件系统(初阶)
大数据·linux·运维·服务器·c++·人工智能·算法
lili-felicity10 小时前
CANN异步推理实战:从Stream管理到流水线优化
大数据·人工智能
2501_9336707910 小时前
2026 高职大数据专业考什么证书对就业有帮助?
大数据
xiaobaibai15311 小时前
营销自动化终极形态:AdAgent 自主闭环工作流全解析
大数据·人工智能·自动化
星辰_mya11 小时前
Elasticsearch更新了分词器之后
大数据·elasticsearch·搜索引擎
xiaobaibai15311 小时前
决策引擎深度拆解:AdAgent 用 CoT+RL 实现营销自主化决策
大数据·人工智能
悟纤11 小时前
学习与专注音乐流派 (Study & Focus Music):AI 音乐创作终极指南 | Suno高级篇 | 第33篇
大数据·人工智能·深度学习·学习·suno·suno api