hadoop平台问题总结

1、解决spark有数据,tez读不到数据问题

递归子目录作为输入,得开启

mapreduce.input.fileinputformat.input.dir.recursive = true;

递归子目录作为输入,spark.sql.sources.recursiveFileLookup=true;

2、解决tez有数据,spark读不到的问题

spark.sql.hive.convertMetastoreParquet 用于控制是否使用 Spark 原生的 Parquet 实现。

true:使用 Spark 内置的 Parquet 数据源(更快、功能更全)

false:使用 Hive 的 SerDe 来读取 Parquet 文件

true(Spark 2.0+ 默认)false(Spark 1.x 默认)

3、解决with as 时候类似的 子句被接取不执行的问题。

set hive.optimize.cte.materialize.threshold=-1;

控制 Hive 是否将 CTE(WITH 子句)的结果物化(materialize)到临时表中,以避免重复计算。

4、解决无数据创建分区的问题

SET hive.exec.max.created.files = -1;

-- 问题SQL:没有数据也会创建分区元数据

INSERT INTO TABLE target_table PARTITION(dt='20251214')

SELECT * FROM source_table WHERE 1=0; -- 无数据

结果:

在Hive元数据中创建分区:dt=20251214

不创建HDFS目录:/user/hive/warehouse/target_table/dt=20251214/

查询时报错:Partition not found 或 File not found

相关推荐
天远数科4 分钟前
Node.js全栈实战:基于天远名下车辆数量查询API实现的智能资产核验组件
大数据·node.js
武子康4 分钟前
大数据-206 用 NumPy 矩阵乘法手写多元线性回归:正规方程、SSE/MSE/RMSE 与 R²
大数据·后端·机器学习
Solar20256 分钟前
构建高可靠性的机械设备企业数据采集系统:架构设计与实践指南
java·大数据·运维·服务器·架构
虫小宝6 分钟前
导购电商平台用户行为分析系统:基于Flink的实时数据处理架构
大数据·架构·flink
地球资源数据云16 分钟前
MODIS(MCD19A2)中国2000-2024年度平均气溶胶光学深度数据集
大数据·服务器·数据库·人工智能·均值算法
小北方城市网23 分钟前
第 4 课:微服务 API 网关设计与接口全生命周期管理|统一入口与接口治理实战
java·大数据·运维·人工智能·python·深度学习·数据库架构
Coder_Boy_36 分钟前
基于SpringAI的在线考试系统设计-用户管理模块设计
java·大数据·人工智能·spring boot·spring cloud
虫小宝40 分钟前
天猫返利app搜索系统优化:基于Elasticsearch的商品导购引擎设计
大数据·elasticsearch·搜索引擎
:mnong42 分钟前
大语言模型提示词生成交互原型案例分享
大数据·数据库·人工智能
小北方城市网43 分钟前
第 5 课:服务网格(Istio)实战|大规模微服务的流量与安全治理体系
大数据·开发语言·人工智能·python·安全·微服务·istio