spark的eventLog日志分析

  1. 查找满足指定条件的app_id
  2. 查询条件: 表名、时间、节点名
  3. 时间限定: 最好适当放大, 不知道什么原因有点不准
  4. eventLog的存放路径: spark.history.fs.logDirectory

1. spark-sql

  • 先限定时间段;
  • 数据是逐行读入的, 但 app_id要按整个文件过滤, 按每个条件打标;
  • 按app_id粒度聚合, 查找符合条件的数据;
sql 复制代码
-- 设定时区
set spark.sql.session.timeZone=GMT+8;

-- 创建数据源视图
create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T08:00:00', 'modifiedBefore'='2023-08-21T14:00:00' );

with tmp as ( -- 打标数据
    select
       input_file_name() as file_name,
       if( value like '%tbl_name%', 1, 0) as table_name,
       if( value like '%core-1-7%', 1, 0) as host_01,
       if( value like '%core-1-10%', 1, 0) as host_02
    from
        view_name
),
tmp2 as ( -- 汇总到app_id粒度
    select
       file_name,
       sum(table_name) as table_name,
       sum(host_01) as host_01,
       sum(host_02) as host_02
    from
        tmp
    group by
        file_name
)
select
    *
from
    tmp2
where
    table_name > 0
order by
    file_name
;

2. 整文件读取

  • 先初步过滤app_id;
  • 整个文件读取成一行;
  • 按条件进行过滤;
Scala 复制代码
import spark.implicits._

// 寻找可能的APP_ID
val sql_create_view =
    """
      |create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T00:00:00', 'modifiedBefore'='2023-08-21T23:00:00' )
      |""".stripMargin
val sql_filter_app_id =
    """
      |select
      |   split( input_file_name(), 'history/')[1]  as file_name
      |from
      |    view_name
      |where
      |    value like '%trandw.dwd_log_app_open_di%'
      |group by
      |    split( input_file_name(), 'history/')[1]
      |""".stripMargin
spark.sql(sql_create_view)
val df_app_ids = spark.sql(sql_filter_app_id)
val app_ids = df_app_ids.collect().map(_.getString(0)).mkString(",")

// 整个文件读取成一行
val rdd = spark.sparkContext.wholeTextFiles(s"hdfs://hdfs-cluster/spark-history/{${app_ids}}",20).repartition(12)
val df = rdd.toDF("file_name", "value")
df.createOrReplaceTempView("tmp")

// 过滤数据
val sql_str =
    """
      |select
      |   file_name
      |from
      |    tmp
      |where
      |    value like '%tbl_name%'
      |    and value like '%core-1-7%'
      |    and  value like '%core-1-10%'
      |""".stripMargin

spark.sql(sql_str).show(1)
相关推荐
ACP广源盛139246256734 小时前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
KaMeidebaby4 小时前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
ACP广源盛139246256731 天前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽1 天前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
simidagogogo1 天前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法
ACP广源盛139246256731 天前
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障
大数据·人工智能·分布式·嵌入式硬件·spark
ACP广源盛139246256732 天前
IX7008 PCIe 交换芯片@ACP#RTX Spark 经济型 8 口扩展芯片(对比 ASM1806)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
ACP广源盛139246256732 天前
IX6012 PCIe 交换芯片@ACP#RTX Spark 入门级 12 口存储外设扩展方案(对比 ASM1812)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
暴躁小师兄数据学院3 天前
【AI大数据工程师特训笔记】第15讲:大数据环境安装
大数据·hadoop·flink·spark
木心术13 天前
在NVIDIA DGX Spark上部署NemoClaw的实际操作方案以及实际应用便利性。
大数据·分布式·spark