GaussDB(DWS)运维利刃:TopSQL工具解析

在生产环境中,难免会面临查询语句出现异常中断、阻塞时间长等突发问题,如果没能及时记录信息,事后就需要投入更多的人力及时间成本进行问题的定位和解决,有时还无法定位到错误出现的地方。在本期《GaussDB(DWS)运维利刃:TopSQL工具解析》的主题直播中,华为云数仓GaussDB(DWS)调优专家刘坤鹏老师,深入讲解GaussDB(DWS) TopSQL的基本原理、能力及典型应用场景。

一、 什么是TopSQL?

TopSQL是GaussDB(DWS)数据库中内置的一款功能十分强大的性能分析工具。在生产环境中,难免会出现一些突发情况,导致查询语句出现异常中断、阻塞时间长等情况,如果当时没能记录下来,那么事后就要投入更多的人力以及时间成本去对错误进行定位和解决,有时还往往定位不到错误出现的地方。为了解决这样的窘迫的情况,GaussDB(DWS)开发了TopSQL功能,对运行中的语句记录(实时TopSQL),对运行完成的语句进行记录(历史TopSQL)。

TopSQL作为GaussDB(DWS)的性能诊断工具,记录GaussDB(DWS)中各个作业、算子级别的资源使用数据、耗时数据,包括下盘信息、内存、网络、耗时、自诊断告警、基础信息等作业执行的数据。

TopSQL工作原理

二、TopSQL系统表和参数介绍

以GaussDB(DWS) 8.1.3版本为例,推荐TopSQL相关的一些参数。

TopSQL常用系统表:

• 实时TopSQL:pgxc_wlm_session_statistics

• 历史TopSQL:pgxc_wlm_session_info

TopSQL系统表关键字段:

三、TopSQL的3个典型应用场景

1、 实时TopSQL

问题场景:某集群业务反馈某业务SQL偶发执行慢,该集群resource_track_duration设置较大,历史TopSQL中没有记录计划详情,需要定位原因。

处理过程:

  1. 系统管理员根据queryid查看等待视图,等待视图部分结果如下:

2)管理员执行explain verbose,得到的执行计划如下

3) 第8层非Stream算子,说明该计划不是正在执行语句的计划,使用实时TopSQL查看实际计划:

2、 历史TopSQL

问题场景:某客户由于内存规格较小,经常出现内存不可用的报错,云上运维人员通过autopilot定期巡检时发现该集群内存周期性冲高,且存在单实例内存使用倾斜的问题,需定位原因。

处理过程:

  1. 通过历史TopSQL找到内存占用高的语句

Select * from pgxc_wlm_session_info where start_time > '2023-10-30 10:05' and start_time < '2023-10-30 10:10' order by max_peak_memory desc limit 100;

  1. 根据unique_sql_id确认作业的历史执行情况

3、 存储过程子语句

问题场景:某客户在业务中封装了大量的存储过程和匿名块脚本,用于业务系统的调度,随着业务数据越来越多,存储过程和匿名块脚本执行越来越慢,需要对其中的脚本进行优化。示例脚本如下:

处理过程:

  1. 查看历史TopSQL,存储过程和匿名块的query_plan字段显示NoPlan;

  2. 设置enable_track_record_subsql: on,该参数打开后可以记录存储过程和匿名块中的自语句和执行计划;

  3. 重新执行慢的存储过程,根据query_id查看历史TopSQL中各个自语句的执行计划。

四、如何通过TopSQL进行信息统计

1、 常用TopSQL进行业务信息统计

  1. 识别stream数量多的语句:select *,(length(query_plan) - length(replace(query_plan, 'Streaming', ''))) / length('Streaming') as stream_count FROM pgxc_wlm_session_info ORDER BY stream_count DESC limit 100;

  2. 识别内存占用高的语句:select * from pgxc_wlm_session_info where start_time > 'xxxx-xx-xx' and start_time < 'xxxx-xx-xx' order by max_peak_memory desc limit 100;

  3. 识别需要优化的语句:select * from pgxc_wlm_session_info where start_time > 'xxxx-xx-xx' and start_time < 'xxxx-xx-xx' and warning is not null order by duration desc limit 100。

2、 TopSQL使用注意事项

  1. 查询时使用start_time做条件,避免全表查询;

  2. 查询时使用limit对结果集大小限制,防止结果集过大导致客户端OOM。

文章转载自: 华为云开发者联盟

原文链接: https://www.cnblogs.com/huaweiyun/p/18058819

体验地址: 引迈 - JNPF快速开发平台_低代码开发平台_零代码开发平台_流程设计器_表单引擎_工作流引擎_软件架构

相关推荐
人活一口气41 分钟前
Spring Boot与AIGC的完美结合:从零搭建智能内容生成平台
java·spring boot·aigc
像我这样帅的人丶你还3 小时前
Java 后端详解(三):全局异常处理与 JPA 数据库映射
java·后端
NE_STOP3 小时前
vibe Coding -- 小项目实战
java
未秃头的程序猿9 小时前
Java 26正式发布!这3个新特性,让代码量直接减半
java·后端·面试
用户298698530149 小时前
Word 文档文本查找与替换的 Java 实现方案
java·后端
阿哉9 小时前
Nacos 服务发现源码:藏在背后的两套事件机制,90%的人只讲了一半
java
咖啡八杯9 小时前
GoF设计模式——命令模式
java·设计模式·架构
AI人工智能_电脑小能手10 小时前
【大白话说Java面试题 第125题】【并发篇】第25题:说说 Java 线程的中断机制
java·后端·面试
Java内核笔记10 小时前
Spring Security 源码解析(六)无状态 JWT 实践:Session 共享与自定义过滤器
java·后端
乘云数字DATABUFF10 小时前
5分钟部署开源APM Databuff:OpenTelemetry全链路追踪入门实战
运维·后端