hadoop平台问题总结

1、解决spark有数据,tez读不到数据问题

递归子目录作为输入,得开启

mapreduce.input.fileinputformat.input.dir.recursive = true;

递归子目录作为输入,spark.sql.sources.recursiveFileLookup=true;

2、解决tez有数据,spark读不到的问题

spark.sql.hive.convertMetastoreParquet 用于控制是否使用 Spark 原生的 Parquet 实现。

true:使用 Spark 内置的 Parquet 数据源(更快、功能更全)

false:使用 Hive 的 SerDe 来读取 Parquet 文件

true(Spark 2.0+ 默认)false(Spark 1.x 默认)

3、解决with as 时候类似的 子句被接取不执行的问题。

set hive.optimize.cte.materialize.threshold=-1;

控制 Hive 是否将 CTE(WITH 子句)的结果物化(materialize)到临时表中,以避免重复计算。

4、解决无数据创建分区的问题

SET hive.exec.max.created.files = -1;

-- 问题SQL:没有数据也会创建分区元数据

INSERT INTO TABLE target_table PARTITION(dt='20251214')

SELECT * FROM source_table WHERE 1=0; -- 无数据

结果:

在Hive元数据中创建分区:dt=20251214

不创建HDFS目录:/user/hive/warehouse/target_table/dt=20251214/

查询时报错:Partition not found 或 File not found

相关推荐
好赞科技1 分钟前
2026年医院预约小程序三大精选:解锁智慧医疗新体验
大数据·微信小程序
黎阳之光2 分钟前
数字城管与社区治理|黎阳之光平台,整合政务、安防、环卫全链路管理
大数据·人工智能·物联网
团象科技4 分钟前
出海云部署认知误区:免实名开云的合规边界与真实价值
大数据
xdpcxq10298 分钟前
大数据没那么远把散乱数据理顺让业务敢用
大数据
zhojiew11 分钟前
在EMR集群中使用Spark MCP服务构建Strands Agent进行故障排查的实践
大数据·spark
Anastasiozzzz14 分钟前
深度解析 AI 时代的“TCP/IP协议”:Agent-to-Agent (A2A) 通信架构与多智能体协同底层逻辑
大数据·开发语言·网络·数据库·网络协议·tcp/ip·架构
ChoSeitaku15 分钟前
02.变量_数据类型转换_运算符
java·大数据·开发语言
戴西软件1 小时前
戴西软件入选2026年安徽省制造业数智化转型服务商名单
java·大数据·服务器·前端·人工智能
黄焖鸡能干四碗9 小时前
固定资产管理系统建设方案和源码(Java源码)
大数据·数据库·人工智能·物联网·区块链
EAIReport9 小时前
Agent开发+Vibe Coding:数据本体论筑牢AI开发效率与可靠性双防线
大数据·人工智能