hadoop平台问题总结

1、解决spark有数据,tez读不到数据问题

递归子目录作为输入,得开启

mapreduce.input.fileinputformat.input.dir.recursive = true;

递归子目录作为输入,spark.sql.sources.recursiveFileLookup=true;

2、解决tez有数据,spark读不到的问题

spark.sql.hive.convertMetastoreParquet 用于控制是否使用 Spark 原生的 Parquet 实现。

true:使用 Spark 内置的 Parquet 数据源(更快、功能更全)

false:使用 Hive 的 SerDe 来读取 Parquet 文件

true(Spark 2.0+ 默认)false(Spark 1.x 默认)

3、解决with as 时候类似的 子句被接取不执行的问题。

set hive.optimize.cte.materialize.threshold=-1;

控制 Hive 是否将 CTE(WITH 子句)的结果物化(materialize)到临时表中,以避免重复计算。

4、解决无数据创建分区的问题

SET hive.exec.max.created.files = -1;

-- 问题SQL:没有数据也会创建分区元数据

INSERT INTO TABLE target_table PARTITION(dt='20251214')

SELECT * FROM source_table WHERE 1=0; -- 无数据

结果:

在Hive元数据中创建分区:dt=20251214

不创建HDFS目录:/user/hive/warehouse/target_table/dt=20251214/

查询时报错:Partition not found 或 File not found

相关推荐
数琨创享TQMS质量数智化15 分钟前
国有大型交通运输设备制造集团QMS质量管理平台案例
大数据·人工智能·物联网
yhdata16 分钟前
绿色能源新动力:硫酸亚铁助力锂电池产业,年复合增长率攀升至14.8%
大数据·人工智能
是垚不是土1 小时前
OpenTelemetry+Jaeger+ES:分布式链路追踪实战部署
大数据·linux·运维·分布式·elasticsearch·全文检索
八月瓜科技1 小时前
AI侵权频发:国内判例定边界,国际判决敲警钟
大数据·人工智能·科技·深度学习·机器人
福赖1 小时前
《微服务即使通讯中ES的作用》
大数据·elasticsearch
盖雅工场1 小时前
业务波动适配型排班,破解零售服务业人力失衡难题
大数据·人工智能
永远不会出bug2 小时前
flink是什么东西
大数据·flink
万岳软件开发小城2 小时前
2026医疗数字化趋势:互联网医院系统源码与智慧医院APP全面爆发
大数据·人工智能·互联网医院系统源码·互联网医院app开发·互联网医院小程序·医院软件开发
福客AI智能客服2 小时前
推理赋能售后:AI淘宝客服与电商智能客服破解复杂问题困局
大数据·人工智能·机器人
Elastic 中国社区官方博客3 小时前
Elasticsearch:Apache Lucene 2025 年终总结
大数据·人工智能·elasticsearch·搜索引擎·apache·lucene