如何通过spark history页面查看gluten是否集成成功

要通过Spark History页面确认Gluten是否集成成功,请按照以下步骤操作:

1. 检查Spark页面

1. 检查Spark配置

进入Environment标签页

◦ 在Spark History页面中,选择目标应用程序,进入Environment 标签。

◦ 查找以下配置项:

spark.plugins :确认其值包含Gluten插件类,如org.apache.gluten.GlutenPlugin

spark.sql.queryExecutionListeners (可选):如果配置了查询监听器,可能包含Gluten相关类。

spark.shuffle.manager :Gluten可能要求设置为org.apache.spark.shuffle.sort.ColumnarShuffleManager

◦ 示例正确配置:
spark.plugins=org.apache.gluten.GlutenPlugin spark.shuffle.manager=org.apache.spark.shuffle.sort.ColumnarShuffleManager

Name Value
spark.plugins org.apache.gluten.GlutenPlugin
spark.shuffle.manager org.apache.spark.shuffle.sort.ColumnarShuffleManager

2. 查看应用程序日志

在日志中搜索Gluten关键字

◦ 在Spark History页面的Logs 部分,查找以下内容:

初始化成功日志 :如Gluten plugin initializedGluten enabled

警告或错误 :如ClassNotFoundException(可能表示依赖缺失)或Gluten fallback to Vanilla Spark(部分操作未使用Gluten)。

◦ 示例成功日志:
INFO GlutenPlugin: Gluten plugin initialized, using backend: velox

log 复制代码
xx/xx/xx 09:17:31 INFO JniLibLoader: Trying to load library libgluten.so
xx/xx/xx 09:17:31 INFO JniLibLoader: Successfully loaded library libgluten.so
xx/xx/xx 09:17:32 INFO JniLibLoader: Trying to load library libvelox.so
xx/xx/xx 09:17:32 INFO JniLibLoader: Successfully loaded library libvelox.so
xx/xx/xx 09:17:32 INFO ExecutorPluginContainer: Initialized executor component for plugin org.apache.gluten.GlutenPlugin.

3. 检查Metrics指标

进入Metrics标签页

◦ 查找Gluten特有的指标,例如:

gluten_velox_tasks :表示由Velox引擎处理的任务数。

gluten_fallback_count :回退到Vanilla Spark的次数(值高可能表示兼容性问题)。

◦ 如果这些指标存在且gluten_velox_tasks大于0,说明Gluten已生效。

4. 分析SQL执行计划

查看SQL查询的物理计划

◦ 在SQL 标签页中,点击具体查询,查看其Physical Plan

◦ 确认是否存在Gluten相关的操作符,例如:

GlutenScan :表示数据扫描由Gluten处理。

VeloxOperator :使用Velox引擎执行的操作(如Filter、Projection)。

◦ 示例计划片段:
+- GlutenScan [id#1, name#2] (Gluten VeloxScan...)

log 复制代码
   VeloxColumnarToRowExec (11)
               +- VeloxAppendBatches (4)

(4) VeloxAppendBatches
(11) VeloxColumnarToRowExec

5. 验证任务执行详情

进入Stages/Tasks详情

◦ 在任务级别指标中,查看是否有关联Gluten的输入/输出格式(如ColumnarToRow转换减少,可能表示Gluten直接处理列式数据)。

常见问题排查

配置未生效 :确保spark.plugins配置正确且无拼写错误,Gluten的JAR包已正确部署到Spark的jars目录。

依赖冲突 :检查日志中是否有NoClassDefFoundError,可能是版本不兼容或依赖缺失。

部分回退 :若gluten_fallback_count较高,需确认查询是否包含Gluten尚未支持的操作(如某些UDF或复杂数据类型)。

结论

如果在配置、日志、Metrics或执行计划中均发现Gluten相关的有效信息(如插件加载成功、Velox任务计数为正),则表明Gluten已成功集成。反之,需根据缺失的证据逐步排查配置或依赖问题。

相关推荐
极光代码工作室15 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
JLWcai2025100915 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
ACP广源盛1392462567315 天前
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择
大数据·人工智能·分布式·嵌入式硬件·spark
木心术115 天前
AMD Ryzen AI Halo与NVIDIA RTX Spark/DGX Spark两款AI个人主机的差异和优劣势
大数据·人工智能·spark
ACP广源盛1392462567316 天前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
KaMeidebaby16 天前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
ACP广源盛1392462567317 天前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽17 天前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
simidagogogo17 天前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法
ACP广源盛1392462567317 天前
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障
大数据·人工智能·分布式·嵌入式硬件·spark