大数据SQL诊断（采集、分析、优化方案）

一、方案背景与核心目标

1.1 业务背景

需对大数据集群中多执行引擎（TEZ、MR、Spark、Flink）、多提交方式（beeline、kyuubi、spark-sql、spark-submit、flink）的SQL任务进行全链路分析，最终结合大模型与实际执行结果生成优化建议。核心需求是精准采集任务的提交IP、执行SQL内容、执行时长三大关键信息，并与YARN资源调度数据深度融合，为优化分析提供完整数据支撑。

1.2 核心目标

全覆盖采集：确保所有目标引擎、提交方式的SQL任务关键信息无遗漏；

数据精准性：执行时长以YARN任务生命周期数据为基准，提交IP、SQL内容确保真实可追溯；

关联完整性：建立组件日志与YARN数据的关联链路，形成"任务属性-资源使用-执行结果"的完整数据链；

低侵入性：采集过程不影响业务正常运行，资源占用可控。

二、核心采集逻辑：YARN+组件原生日志双源融合

2.1 采集框架总览

核心思路：组件原生日志采集"提交IP、SQL内容、提交方式"等业务属性，YARN数据（API/日志）采集"执行时长、资源使用、引擎类型"等调度属性，通过"YARN AppID"作为核心关联键，实现双源数据融合，最终输出结构化数据供分析使用。

采集框架流程：

日志采集层：通过轻量采集工具获取Hive/TEZ/MR、Kyuubi、Spark、Flink等组件原生日志；

YARN数据层：通过YARN ResourceManager API获取任务全生命周期数据；

解析关联层：对采集的日志进行结构化解析，提取关联键（YARN AppID），与YARN数据关联融合；

存储层：将融合后的结构化数据存入时序数据库，支撑后续分析与大模型调用。

2.2 核心字段采集分工

|---------|----------------------------------------------------------|------------------------------------------------------------|-----------------------------------------|
| 关键字段 | 采集来源 | 采集说明 | 数据优势 |
| 提交IP | 组件原生日志（HiveServer2、Kyuubi、Spark Driver、Flink JobManager） | 从日志中提取终端用户IP（如remoteIP、clientIP、kyuubi.session.user.ip等字段） | 精准定位终端提交节点，而非YARN记录的提交节点主机名 |
| 执行SQL内容 | 组件原生日志 | 从日志中提取执行语句（如Executing query、Submitting SQL等关键字段），需脱敏处理 | YARN无业务层SQL记录，组件日志是唯一可靠来源 |
| 执行时长 | YARN API/日志（优先）+ 组件日志（补充） | YARN通过startTime/finishTime计算elapsedTime；组件日志缺失时用此补充 | YARN记录任务全生命周期，时长精准度高于组件日志，避免日志丢失导致的时长缺失 |
| 执行引擎 | YARN API（优先）+ 组件日志 | YARN通过applicationType字段标识（MAPREDUCE/TEZ/SPARK/FLINK） | YARN数据权威，避免组件日志解析导致的引擎类型误判 |
| 提交方式 | 组件原生日志 | 通过日志特征区分（如beeline对应HiveServer2日志、kyuubi对应Kyuubi日志） | 精准匹配提交入口，支撑分场景优化分析 |
| 资源使用情况 | YARN API/日志 | 提取分配内存、CPU核数、容器数量等 | 为大模型提供资源调优相关数据支撑 |

三、分场景采集方案

3.1 采集工具选型

日志采集：Flume（轻量Agent，单机部署，资源占用≤5%），支持日志打标、压缩传输；

YARN数据采集：Python定时脚本（调用YARN REST API），避免解析复杂日志；

解析工具：Flink SQL（实时解析Kafka中的日志数据）；

存储工具：ClickHouse（适配海量时序SQL任务数据，支持快速查询与聚合）。

3.2 组件原生日志采集（提交IP+SQL内容）

针对不同引擎/提交方式，配置专属Flume Agent采集日志，通过拦截器添加log_type标签，便于后续解析区分。

|-------------------------------|------------------------------------------|------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------|
| 引擎/提交方式 | 日志路径 | 关键提取规则 | Flume配置要点 |
| Hive（MR/TEZ）+ beeline | $HIVE_HOME/logs/hive-server2.log | 提交IP：remoteIP=(\\d+\\.\\d+\\.\\d+\\.\\d+)；SQL：Executing query: (.\*)；YARN AppID：tez.application.id=(.\*) | source类型：exec（tail -F）；拦截器：添加log_type=hive | | Kyuubi（多引擎） |$ KYUUBI_HOME/logs/kyuubi-server.log | 提交IP：kyuubi.session.user.ip=(\d+\.\d+\.\d+\.\d+)；SQL：kyuubi.query.sql=(.*)；YARN AppID：kyuubi.query.yarn.app.id=(.*) | source类型：exec；拦截器：添加log_type=kyuubi |
| Spark（spark-sql/spark-submit） | $SPARK_HOME/work/\*/driver.log | 提交IP：spark.driver.host=(\\d+\\.\\d+\\.\\d+\\.\\d+)；SQL：Running query: (.\*)；YARN AppID：Application ID: (.\*) | source类型：exec（通配所有driver日志）；拦截器：添加log_type=spark | | Flink（flink提交） |$ FLINK_HOME/logs/flink-*-jobmanager.log | 提交IP：clientIP=(\d+\.\d+\.\d+\.\d+)；SQL：Submitting SQL query: (.*)；YARN AppID：YARN application ID: (.*) | source类型：exec；拦截器：添加log_type=flink |

3.3 YARN数据采集（执行时长+资源信息）

采用API调用方式采集，避免解析YARN原生日志的复杂性，提升数据获取效率。

3.3.1 核心API接口

批量获取任务列表：http://yarn-rm:8088/ws/v1/cluster/apps?startedTimeBegin={开始时间戳}\&startedTimeEnd={结束时间戳}（筛选指定时间范围任务）；

获取单个任务详情：http://yarn-rm:8088/ws/v1/cluster/apps/{YARN AppID}（获取任务起止时间、资源分配、引擎类型等）。

3.3.2 关键字段提取（JSON解析）

|-----------------------------|-------------|--------------------------------|
| YARN API字段 | 字段含义 | 用途 |
| id | YARN AppID | 与组件日志关联的核心键 |
| applicationType | 执行引擎类型 | 验证并补充引擎类型信息 |
| startTime/finishTime | 任务起止时间戳（毫秒） | 计算执行时长（finishTime - startTime） |
| elapsedTime | 已执行时长（毫秒） | 直接复用，无需计算 |
| allocatedMB/allocatedVCores | 分配内存/CPU核数 | 大模型资源调优建议依据 |
| user | 提交用户 | 任务责任人追溯 |

3.3.3 采集调度策略

Python脚本部署在运维节点，采用定时任务调度：

调度频率：低峰期（如凌晨0-6点）每30分钟执行一次，高峰期每5分钟执行一次；

数据去重：基于YARN AppID去重，避免重复采集；

异常重试：API调用失败时，重试3次（间隔5秒），失败后记录日志告警。

四、数据关联与结构化存储

4.1 关联规则（核心：YARN AppID）

基础关联：组件日志解析后提取YARN AppID，与YARN API获取的AppID进行精准匹配，关联双方数据；

异常处理：无YARN AppID的任务（如本地运行的Spark任务），以组件任务ID（如hive.query.id、spark.app.id）为键，单独标记并使用组件日志中的执行时长；

数据校验：通过"提交用户、任务开始时间"二次校验，确保关联准确性（如组件日志的提交用户与YARN的user字段一致）。

4.2 ClickHouse表结构设计

|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| sql CREATE TABLE sql_execution_analysis ( yarn_app_id String COMMENT 'YARN任务唯一ID（可为空）', component_task_id String COMMENT '组件任务ID（Hive/Spark/Flink等）', submit_ip String COMMENT '终端提交IP', submit_user String COMMENT '任务提交用户', sql_content String COMMENT '脱敏后的SQL执行语句', execute_duration Int64 COMMENT '执行时长（毫秒），优先取YARN数据', engine_type String COMMENT '执行引擎：MR/TEZ/Spark/Flink', submit_method String COMMENT '提交方式：beeline/kyuubi/spark-sql/spark-submit/flink', allocated_memory Int64 COMMENT 'YARN分配内存（MB）', allocated_cpu Int64 COMMENT 'YARN分配CPU核数', start_time DateTime COMMENT '任务开始时间', end_time DateTime COMMENT '任务结束时间', create_time DateTime DEFAULT now() COMMENT '数据采集时间' ) ENGINE = MergeTree() ORDER BY (start_time, engine_type, yarn_app_id) SETTINGS index_granularity = 8192; |

五、大模型对接与优化建议生成

5.1 数据输入格式

从ClickHouse提取结构化数据，按以下格式封装后调用大模型API：

5.2 分引擎Prompt模板（示例）

针对TEZ引擎的Prompt模板：

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| text ### SQL执行基础信息 - YARN任务ID：{yarn_app_id} - 提交IP：{submit_ip} - 执行引擎：TEZ - 提交方式：{submit_method} - 执行时长：{execute_duration}ms（{execute_duration/60000}分钟） - 分配资源：内存{allocated_memory}MB，CPU{allocated_cpu}核 - SQL内容：{sql_content} ### 优化要求 1. 从TEZ引擎特性（DAG调度、容器资源、Shuffle配置）出发，分析SQL执行慢的核心原因； 2. 给出可直接执行的优化后SQL（保留业务逻辑，补充分区过滤、JOIN优化等细节）； 3. 提供TEZ引擎调优参数（如tez.container.size、tez.task.resource.memory.mb）及YARN资源调整建议； 4. 若存在数据倾斜、小文件等问题，给出针对性解决方案； 5. 语言简洁，优先输出低成本、快速见效的优化措施。 |

六、关键注意事项

6.1 采集过程低侵入性保障

资源限制：Flume Agent内存限制为1GB，CPU优先级设为最低（Linux nice值19），避免占用业务节点资源；

带宽控制：日志传输采用Snappy压缩，单Agent传输带宽限速10MB/s，高峰期可临时降至5MB/s；

低峰操作：组件日志配置调整、采集Agent部署均在凌晨低峰期执行，核心组件（如HiveServer2）采用主备切换方式重启，避免业务中断。

6.2 数据质量与安全

SQL脱敏：采集后对SQL中的敏感信息（手机号、身份证、银行卡号）进行正则替换，替换为"***"；

日志轮转：配置组件日志按大小（500MB）+ 时间（1天）轮转，避免日志文件过大导致解析失败；

数据校验：定期对比组件日志与YARN数据的执行时长、提交用户等字段，偏差超过10%时触发告警。

6.3 异常处理机制

关联失败：无YARN AppID的任务单独存入异常表，人工核查是否为本地任务或日志缺失；

日志丢失：部署日志监控工具，当组件日志5分钟无新增时触发告警，检查采集Agent状态；

API调用失败：记录失败任务的AppID，后续重新调用YARN API补充采集，确保数据完整性。

七、方案总结

本方案通过"组件原生日志采集业务属性+YARN API采集调度属性"的双源融合模式，实现了多引擎、多提交方式SQL任务关键信息的全覆盖采集。以YARN AppID为核心关联键，保障了数据的完整性与精准性；通过低侵入性的采集策略与严格的资源控制，确保不影响业务正常运行。最终结构化的数据可直接对接大模型生成针对性优化建议，为SQL执行效率提升提供有力支撑。