云贝教育 |【技术文章】postgresql触发OOM解析

注: 本文为云贝教育刘峰原创，请尊重知识产权，转发请注明出处，不接受任何抄袭、演绎和未经注明出处的转载。

示例：在一台运行着PostgreSQL数据库的Linux服务器上，如果数据库工作负载非常高，例如在短时间内执行了大量的复杂查询，或者一次性加载了很大的数据集进行处理，可能会导致数据库进程占用大量的内存。例如：

当PostgreSQL进程消耗的内存超过了操作系统可分配的总量，操作系统内核的OOM Killer可能会介入，为了保护系统的稳定性，选择结束掉消耗内存最多的进程，而这很可能就是PostgreSQL数据库服务进程，从而导致数据库服务宕机。

日志示例：

在PostgreSQL的日志中，不会直接记录OOM Killer的信息，但可能会看到类似下面这样的错误提示，间接表明是因为内存不足引发的问题：

LOG: could not fork new process for connection: Cannot allocate memory

数据库调整方案：

**work_mem:**根据实际业务需求调整每个查询可以使用的内存大小，避免单个查询消耗过多内存。
**temp_buffers:**设置合适的临时缓冲区数量，防止临时表操作消耗过多内存。
**maintenance_work_mem:**为大型维护操作（如VACUUM FULL、CREATE INDEX CONCURRENTLY等）分配充足的内存，但不至于过大。
**shared_buffers:**这是PostgreSQL用于共享内存缓冲池的大小，应根据服务器总内存和并发连接数适量调整，但不要占用全部内存。

2. 监控与报警：

3. 查询优化：

4. 资源管理：

5. 定期维护与清理：

6. 硬件扩容：

总结来说，解决PostgreSQL触发的操作系统OOM问题需要综合考虑系统配置、数据库参数优化、查询性能优化和系统资源的有效管理等多个方面，同时也需要良好的监控机制来预防潜在的风险

1. 监控与告警：

2. 调整内存分配策略：

调整Linux内核的虚拟内存过载提交策略，通过修改 /proc/sys/vm/overcommit_memory 文件内容：

3. 调整交换空间大小：

如果物理内存不足，可以适当增加交换空间（Swap Space），但要注意交换空间的速度远低于物理内存，只能作为临时应急措施，长期而言应增加物理内存或优化应用内存使用。
使用 swapon 或在 /etc/fstab 中设置，确保交换分区足够应对突发的内存需求。

4. OOM Killer调整：

调整OOM Killer的决策策略，通过编辑 /proc/<pid>/oom_score_adj（或者对于较新内核 /proc/<pid>/oom_score_adj）文件，可以改变特定进程在OOM Killer决策时的得分，避免重要的服务进程（如PostgreSQL）被优先杀死。
设置 sysctl vm.panic_on_oom=0 可以防止系统在触发OOM时直接panic，改为尝试触发OOM Killer。

5. 内存资源限制：

6. 系统层面的内存优化：

总的来说，操作系统层面的调整主要是通过对内存资源进行合理分配、设置告警阈值、优化内存分配策略以及限制特定进程的内存使用，结合应用层面的优化共同解决PostgreSQL触发的操作系统OOM问题。同时，还需要密切关注系统总体内存使用情况，确保整体系统的稳定运行。