linux 环境服务发生文件句柄泄漏导致服务不可用

问题描述:

服务调用远程rest接口 报错,发生too many open files 异常,系统句柄资源耗尽,导致服务不可用。

排查经过:

1、针对报错代码进行本地构建,构造异常,并进行压测。问题未复现

2、经过讨论分析,问题发生根因为:句柄资源耗尽,那么必然存在进程持续消耗句柄资源,且不进行释放。

3、因此,开始排查服务进程句柄信息

bash 复制代码
# 统计进程句柄总数
lsof -p <PID> | wc -l 
# 统计进程目录句柄总数  若持续增加则存在泄漏
lsof -p <PID> | grep DIR  
# 统计进程delete文件删除句柄总数  若持续增加则存在泄漏
lsof -p <PID> | grep delete

通过统计观察各个进程的句柄总数,分析查找到问题根源

原因最终确认:

问题代码:loadDirectory函数加载指定目录下所有文件,并返回Path列表。Files.list函数为安全关闭文件句柄,导致该方法频繁调用时未释放目录句柄资源。导致系统句柄资源耗尽

java 复制代码
    public static List<Path> loadDirectory(String fileDirectory) {
        try {
            final Path pathDirectory = Path.of(fileDirectory);
            if (Files.isDirectory(pathDirectory)) {
                return Files.list(pathDirectory)
                            .collect(Collectors.toList());
            } else {
                throw new NotDirectoryException(fileDirectory);
            }
        } catch (IOException e) {
            log.error("file write error:", e);
        }
        return new ArrayList<>(0);
    }

问题修复 :使用try-resource-with 方式主动关闭资源

java 复制代码
public static List<Path> loadDirectory(String fileDirectory) throws CheckingException {
        try (Stream<Path> stream = Files.list(Paths.get(fileDirectory))) {
            return stream.collect(Collectors.toList());
        } catch (IOException e) {
            log.error("fileDirectory is not directory:", e);
            throw new CheckingException("can not load directory:" + fileDirectory);
        }
    }

问题复盘:创建系统句柄监控,进程句柄如果超过300,则进行告警,超过1000,则提示高危进程

bash 复制代码
#!/bin/bash
# 高效进程句柄监控脚本 v2.0
THRESHOLD=300       # 单个进程句柄阈值
HIGH_THRESHOLD=2000  # 高危进程阈值
INTERVAL=20          # 监控间隔(秒)
LOG_DIR="logs"
LOG_FILE="${LOG_DIR}/handle_monitor_$(date +%Y%m%d).log"
MAX_LOG_DAYS=30      # 日志保留天数

# 创建日志目录
mkdir -p ${LOG_DIR}

# 清理旧日志
find ${LOG_DIR} -name "handle_monitor_*.log" -mtime +${MAX_LOG_DAYS} -delete

# 日志函数
log() {
    echo "$(date "+%Y-%m-%d %H:%M:%S") $1" >> ${LOG_FILE}
}

# 获取进程FD数量的高效方法
get_fd_count() {
    local pid=$1
    if [ -d /proc/$pid/fd ]; then
        echo $(ls -1 /proc/$pid/fd 2>/dev/null | wc -l)
    else
        echo 0
    fi
}

# 主监控循环
while true; do
    log "===== 开始监控 ====="
    total_warning=0

    # 高效获取所有PID
    pids=$(find /proc -maxdepth 1 -type d -name '[0-9]*' -printf "%f\n" 2>/dev/null)

    # 遍历PID
    for pid in $pids; do
        fd_count=$(get_fd_count $pid)

        if [[ $fd_count -ge $THRESHOLD ]]; then
            proc_name=$(ps -p $pid -o comm= 2>/dev/null || echo "未知进程")
            log "警告: PID $pid ($proc_name) - $fd_count 个文件描述符"
            ((total_warning++))

            # 高危进程详细记录
            if [[ $fd_count -ge $HIGH_THRESHOLD ]]; then
                log "高危进程详情:"
                lsof -p $pid +c 0 2>/dev/null | head -50 >> ${LOG_FILE}
                log "(仅显示前50个FD,完整列表请单独检查)"
            fi
        fi
    done

    # 系统级统计
    sys_stats=$(cat /proc/sys/fs/file-nr 2>/dev/null)
    log "系统FD统计: ${sys_stats:-无法获取}"
    log "警告进程总数: $total_warning"
    log "===== 监控结束 ====="

    sleep $INTERVAL
done

使用说明

使用说明:
  1. 保存为 fd_monitor.sh
  2. 赋予执行权限:chmod +x fd_monitor.sh
  3. 后台运行:nohup ./fd_monitor.sh &
  4. 查看日志:tail -f logs/handle_monitor_xxx.log
相关推荐
Gappsong87411 分钟前
Rufus:Ubuntu U盘启动盘制作工具详解
linux·c++·web安全·网络安全
dessler39 分钟前
RabbitMQ-交换机(Exchange)
linux·分布式·zookeeper·云原生·kafka·rabbitmq
程序员编程指南2 小时前
Qt开发环境搭建全攻略(Windows+Linux+macOS)
linux·c语言·c++·windows·qt
我爱学嵌入式2 小时前
C语言第 4 天学习笔记:位运算、流程控制与输入输出
linux·c语言·笔记
西红柿煎蛋3 小时前
WSL2子系统连接USB
linux
豆是浪个3 小时前
Linux(Centos 7.6)命令详解:jobs
linux·运维·centos
Fireworkitte3 小时前
ps aux 和 ps -ef
linux·运维·vim
想睡hhh4 小时前
Linux文件——文件系统Ext2(1)_理解硬件
linux·服务器·磁盘
南通SEO5 小时前
CentOS 7安装 FFmpeg问题可以按照以下步骤进行安装
linux·ffmpeg·centos
珹洺5 小时前
Linux操作系统从入门到实战(十二)Linux操作系统第一个程序(进度条)
linux·运维·服务器