PostgreSQL 的统计信息

PostgreSQL 的统计信息

PostgreSQL 的统计信息是查询优化和性能调优的基础,系统通过多种统计信息来评估数据分布和访问模式,从而生成高效的执行计划。

一 统计信息类型与用途

1.1 核心统计类别

统计类型 存储位置 主要用途 更新机制
表和索引扫描统计 pg_stat_*视图 查询计划优化 自动/手动ANALYZE
系统性能统计 pg_stat_*视图 性能监控 实时更新
数据分布统计 pg_statistic目录 查询成本估算 ANALYZE命令
扩展统计 pg_statistic_ext 复杂查询优化 ANALYZE命令

1.2 关键统计视图对比

视图名称 统计内容 典型应用场景
pg_stat_user_tables 用户表访问统计 识别高频表
pg_stat_user_indexes 索引使用情况 评估索引有效性
pg_stat_activity 当前会话信息 会话监控
pg_stat_database 数据库级统计 负载分析

二 统计信息收集机制

2.1 自动收集流程

是 否 数据修改 更新pg_class.reltuples 达到阈值? 触发autovacuum analyze 继续监控 收集列统计信息 更新pg_statistic

2.2 统计收集参数配置

参数 默认值 调优建议
default_statistics_target 100 大表可增至200-500
autovacuum_analyze_scale_factor 0.1 大表设为0.01-0.05
autovacuum_analyze_threshold 50 结合scale_factor调整
stats_row_level on 关键表建议开启

三 统计信息应用实例

3.1 查询优化示例

sql 复制代码
-- 查看统计信息如何影响计划
EXPLAIN ANALYZE SELECT * FROM orders WHERE customer_id = 100;

-- 对比不同统计目标的效果
SET default_statistics_target = 10;
EXPLAIN ANALYZE...;

SET default_statistics_target = 500;
EXPLAIN ANALYZE...;

3.2 性能问题诊断

sql 复制代码
-- 识别统计信息不准导致的性能问题
SELECT relname, last_analyze, n_mod_since_analyze
FROM pg_stat_user_tables
WHERE n_mod_since_analyze > 1000;

-- 检查索引使用情况
SELECT schemaname, tablename, indexname, idx_scan
FROM pg_stat_user_indexes
WHERE idx_scan < 50
ORDER BY schemaname, tablename;

四 统计信息维护策略

4.1 手动维护命令

sql 复制代码
-- 更新单个表统计信息
ANALYZE VERBOSE table_name;

-- 更新整个数据库
ANALYZE;

-- 带采样率的ANALYZE
ANALYZE table_name (sample_percent 20);

-- 创建扩展统计
CREATE STATISTICS stts1 (dependencies) ON col1, col2 FROM table1;

4.2 自动化维护方案

bash 复制代码
# 每日维护脚本示例
#!/bin/bash
# 分析更新量大的表
psql -c "ANALYZE VERBOSE (SELECT table_name FROM pg_stat_user_tables 
          WHERE n_mod_since_analyze > 10000);"

# 每周全库分析
psql -c "ANALYZE VERBOSE;"

五 高级统计技术

5.1 表达式统计

sql 复制代码
-- 为计算列创建统计
CREATE STATISTICS expr_stats (expressions) 
ON (substring(email, position('@' in email)+1)) 
FROM users;

-- 使用统计优化查询
EXPLAIN ANALYZE SELECT * FROM users 
WHERE substring(email, position('@' in email)+1) = 'example.com';

5.2 多变量统计

sql 复制代码
-- 创建列依赖统计
CREATE STATISTICS dept_stats (dependencies) 
ON department_id, manager_id FROM employees;

-- 创建MCV列表
CREATE STATISTICS mcv_stats (mcv) 
ON status, priority FROM tickets;

六 统计信息监控

6.1 监控查询示例

sql 复制代码
-- 统计信息时效性监控
SELECT 
    schemaname,
    relname,
    last_analyze,
    n_mod_since_analyze,
    round(n_mod_since_analyze::numeric/reltuples::numeric*100,2) as change_percent
FROM pg_stat_user_tables
WHERE reltuples > 0
ORDER BY change_percent DESC;

-- 扩展统计使用情况
SELECT stxname, stxkeys, stxkind 
FROM pg_statistic_ext 
JOIN pg_namespace ON stxnamespace = pg_namespace.oid;

6.2 统计信息可视化

bash 复制代码
# 生成统计报告示例
psql -c "SELECT relname, seq_scan, idx_scan, 
          round(100*idx_scan::float/(seq_scan+idx_scan+1),2) as idx_scan_pct 
          FROM pg_stat_user_tables" -H -o stats_report.html

PostgreSQL 的统计信息系统为数据库性能优化提供了坚实基础。通过合理配置统计参数、定期维护统计信息,并利用扩展统计功能,可以显著提升复杂查询的性能。建议在以下场景特别注意统计信息管理:

  1. 数据仓库环境 :增大default_statistics_target并创建扩展统计
  2. OLTP高频更新表 :降低autovacuum_analyze_scale_factor
  3. 报表生成前:手动执行ANALYZE确保统计准确
  4. 模式变更后:立即更新相关统计信息

统计信息的质量直接影响查询优化器的决策质量,应将其作为数据库日常维护的重要组成部分。

谨记:心存敬畏,行有所止。

相关推荐
倔强的石头_18 小时前
《Kingbase护城河》——数据库存储空间全景探测与精细化瘦身实战
数据库
冬奇Lab1 天前
每日一个开源项目(第134篇):Zvec - 阿里开源的嵌入式向量数据库,向量搜索界的 SQLite
数据库·人工智能·llm
ClouGence2 天前
Oracle CDC 架构优化:从主库直连到 DataGuard 备库同步
数据库·后端·oracle
无响应de神2 天前
三、用户与权限管理
数据库·mysql
大树882 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠2 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质2 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
Inhand陈工3 天前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
酣大智3 天前
ARP代理--工作原理
运维·网络·arp·arp代理
麦聪聊数据3 天前
数据服务化时代:企业数据能力输出的核心路径
数据库