PostgreSQL 大数据查询与索引优化核心总结

一、实验背景

基于 PostgreSQL 构建日志表,通过千万级数据验证:

  • 全表查询性能

  • 索引(尤其 BRIN)在大数据场景的作用


二、核心结论

1️⃣ GROUP BY 不依赖索引

复制代码
SELECT api, count(*) FROM logs GROUP BY api;

👉 执行计划:

  • Parallel Seq Scan

  • Hash Aggregate

结论:

❗需要扫描全部数据 → 索引无效


2️⃣ WHERE 条件 ≠ 性能提升

复制代码
WHERE ts > now() - interval '1 day'

如果没有索引:

❗仍然是全表扫描 → 性能几乎不变


3️⃣ BRIN 索引的前提

复制代码
CREATE INDEX ... USING BRIN(ts);

必须满足:

❗数据在物理存储上"有序"(如时间递增)


4️⃣ BRIN 的本质

不是精确查找,而是:

❗跳过不相关的数据块(减少 IO)


三、关键实验现象


❌ 无序数据(随机时间)

复制代码
Parallel Seq Scan
Execution Time: ~2500ms

✅ 有序数据 + BRIN

复制代码
Bitmap Index Scan
Execution Time: ~0.09ms

🎯 性能提升

❗约 1000~4000 倍


四、重要反直觉结论


❗索引不是总能加速

当查询命中数据较多(如 >20%):

  • 使用索引(BRIN) → 反而更慢

  • 全表扫描(Seq Scan) → 更快


五、本质理解


PostgreSQL 优化核心:

❗不是"用不用索引"

❗而是"扫描多少数据"


性能公式(核心)

复制代码
查询性能 ≈ 扫描数据量(IO) + 访问方式

六、最终总结


❗MySQL 优化的是:快速定位数据(OLTP)

❗PostgreSQL 优化的是:高效处理数据(OLAP)


❗真正的优化不是"加索引"

❗而是:
减少扫描的数据量


相关推荐
daad7771 小时前
记录一个zmq客户端的性能调优
大数据·elasticsearch·搜索引擎
minji...1 小时前
MySQL数据库 (八) MySQL表的基本查询(下),truncate、group by、聚合函数、分组聚合统计
数据库·mysql·聚合函数·update·分组聚合统计
乐世东方客1 小时前
备份脚本记录(binlog文件+mysql+mongo)
android·数据库·mysql
暴力求解1 小时前
MySQL---数据类型
数据库·mysql
Nturmoils1 小时前
分页别写太顺手,LIMIT 背后还有排序和边界
数据库·后端
小饕1 小时前
RAG学习之【向量数据库】Milvus 从入门到精通:索引、检索、混合搜索一篇打通(RAG 必备)
数据库·人工智能·学习·milvus
华奥系科技1 小时前
汛期城市内涝治理:智慧水务如何重塑防汛“安全感”?
大数据·运维·人工智能
Bode_20022 小时前
智能协同与绿色数字孪生舱主要功能与关键技术
大数据·人工智能·制造·碳中和
雁無痕2 小时前
Postgresql启动无监听端口问题的解决
postgresql
kisdiem2 小时前
RAG ENGINEERING · 中文教程从文档到可靠答案
数据库