使用mtrace追踪JVM堆外内存泄露

原创:扣钉日记(微信公众号ID:codelogs),欢迎分享,非公众号转载保留此声明。

简介

在上篇文章中,介绍了使用tcmalloc或jemalloc定位native内存泄露的方法,但使用这个方法相当于更换了原生内存分配器,以至于使用时会有一些顾虑。

经过一些摸索,发现glibc自带的ptmalloc2分配器,也提供有追踪内存泄露的机制,即mtrace,这使得发生内存泄露时,可直接定位,而不需要额外安装及重启操作。

mtrace追踪内存泄露

glibc中提供了mtrace这个函数来开启追踪内存分配的功能,开启后每次应用程序调用malloc或free函数时,会将内存分配释放操作记录在MALLOC_TRACE环境变量所指的文件里面,如下:

bash 复制代码
$ pid=`pgrep java`

# 配置gdb不调试信号,避免JVM收到信号后被gdb暂停
$ cat <<"EOF" > ~/.gdbinit
handle all nostop noprint pass
handle SIGINT stop print nopass
EOF

# 设置MALLOC_TRACE环境变量,将内存分配操作记录在malloc_trace.log里
$ gdb -q -batch -ex 'call setenv("MALLOC_TRACE", "./malloc_trace.log", 1)' -p $pid

# 调用mtrace开启内存分配追踪
$ gdb -q -batch -ex 'call mtrace()' -p $pid

# 一段时间后,调用muntrace关闭追踪
$ gdb -q -batch -ex 'call muntrace()' -p $pid

然后查看malloc_trace.log,内容如下:

可以发现,在开启mtrace后,glibc将所有malloc、free操作都记录了下来,通过从日志中找出哪些地方执行了malloc后没有free,即是内存泄露点。

于是glibc又提供了一个mtrace命令,其作用就是找出上面说的执行了malloc后没有free的记录,如下:

bash 复制代码
$ mtrace malloc_trace.log | less -n
Memory not freed:
-----------------
           Address     Size     Caller
0x00007efe08008cc0     0x18  at 0x7efe726e8e5d
0x00007efe08008ea0    0x160  at 0x7efe726e8e5d
0x00007efe6cabca40     0x58  at 0x7efe715dc432
0x00007efe6caa9ad0   0x1bf8  at 0x7efe715e4b88
0x00007efe6caab6d0   0x1bf8  at 0x7efe715e4b88
0x00007efe6ca679c0   0x8000  at 0x7efe715e4947

# 按Caller分组统计一下,看看各Caller各泄露的次数及内存量
$ mtrace malloc_trace.log | sed '1,/Caller/d'|awk '{s[$NF]+=strtonum($2);n[$NF]++;}END{for(k in s){print k,n[k],s[k]}}'|column -t
0x7efe715e4b88  1010  7231600
0x7efe715dc432  1010  88880
0x7efe715e4947  997   32669696
0x7efe726e8e5d  532   309800
0x7efe715eb2f4  1     72
0x7efe715eb491  1     38

可以发现,0x7efe715e4b88这个调用点,泄露了1010次,那怎么知道这个调用点在哪个函数里呢?

根据指令地址找函数

之前我们介绍过Linux进程的虚拟内存布局,如下:

  • Stack:栈,向下扩展,为线程分配的栈内存。
  • Memory Mapping Segment:内存映射区域,通过mmap分配,如映射的*.so动态库、动态分配的匿名内存等。
  • Heap:堆,向上扩展,动态分配内存的区域。
  • Data Segment:数据段,一般用来存储如C语言中的全局变量。
  • Code Segment:代码段,对于JVM来说,它从bin/java二进制文件加载而来。

而对于JVM来说,bin/java只是一个启动进程的壳,真正的代码基本都在动态库中,如libjvm.so、libzip.so等。

而在Linux中,动态库都是直接加载的,如下:

因此,通过如下步骤,即可知道某个指令地址来自哪个函数,如下:

  • 根据指令地址,找到其所属的动态库,以及动态库在进程虚拟内存空间中的起始地址。
  • 根据指令地址减去起始地址,算出指令在动态库中的偏移量地址。
  • 反汇编动态库文件,根据偏移量地址查找指令所在函数。
  1. 找动态库及起始地址
bash 复制代码
$ pmap -x $pid -p -A 0x7efe715e4b88
Address           Kbytes     RSS   Dirty Mode  Mapping
00007efe715d9000     108     108       0 r-x-- /opt/jdk8u222-b10/jre/lib/amd64/libzip.so
---------------- ------- ------- -------
total kB             108  163232  160716

通过pmap的-A选项,可以通过内存地址找内存映射区域,如上,Mapping列就是内存映射区域对应的动态库文件,而Address列是其在进程虚拟内存空间中的起始地址。

  1. 计算指令在动态库中的偏移量
bash 复制代码
# 指令地址减去动态库起始地址
$ printf "%x" $((0x7efe715e4b88-0x00007efe715d9000))
bb88
  1. 反汇编并查找指令
bash 复制代码
$ objdump -d /opt/jdk8u222-b10/jre/lib/amd64/libzip.so | less -n

可以发现,进程地址0x7efe715e4b88上的指令,在inflateInit2_函数中。

当然,上面步骤有点复杂,其实也可以通过gdb来查,如下:

bash 复制代码
gdb -q -batch -ex 'info symbol 0x7efe715e4b88' -p $pid

这样,我们找到了泄露的原生函数名,那是什么java代码调用到这个函数的呢?

通过原生函数名找Java调用栈

通过arthas的profiler命令,可以采样到原生函数的调用栈,如下:

bash 复制代码
[arthas@1]$ profiler execute 'start,event=inflateInit2_,alluser'
Profiling started
[arthas@1]$ profiler stop
OK
profiler output file: .../arthas-output/20230923-173944.html

打开这个html文件,可以发现相关的Java调用栈,如下:
至此,我们堆外内存泄露的代码路径就找到了,只需要再看看代码,识别一下哪些代码路径确实会导致内存泄露即可。

注:经过测试,发现profiler其实可以直接使用指令地址,所以不转换为函数名称,也是OK的。

通过jna开启mtrace

gdb实际是C/C++的调试程序,通过gdb来直接调用native函数,可能会出现一些不确定因素。

众所周知,Java提供了JNI机制,可实现Java调用native函数,而jna(Java Native Access)则对JNI技术进行了封装,大大简化了Java调用native函数的开发工作。

因此,我们可以使用jna来调用mtrace等native函数,如下:

  1. 引入jna库
xml 复制代码
<dependency>
    <groupId>net.java.dev.jna</groupId>
    <artifactId>jna</artifactId>
    <version>4.2.2</version>
</dependency>
  1. 封装并调用native函数
java 复制代码
public class JnaTool {
    public interface CLibrary extends Library {
        void malloc_stats();
        void malloc_trim(int pad);
        void setenv(String name, String value, int overwrite);
        void mtrace();
        void muntrace();
    }

    private static CLibrary cLibrary;

    static {
        try {
            cLibrary = (CLibrary) Native.loadLibrary("c", CLibrary.class);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public static void mtrace(String traceFile) {
        if (cLibrary == null) return;
        cLibrary.setenv("MALLOC_TRACE", traceFile, 1);
        cLibrary.mtrace();
    }

    public static void muntrace() {
        if (cLibrary == null) return;
        cLibrary.muntrace();
    }

    public static void mallocStats() {
        if (cLibrary == null) return;
        cLibrary.malloc_stats();
    }

    public static void mallocTrim() {
        if (cLibrary == null) return;
        cLibrary.malloc_trim(0);
    }
}

这样,就可以避免使用gdb而调用一些C库函数了😎

相关推荐
想躺平的咸鱼干几秒前
Volatile解决指令重排和单例模式
java·开发语言·单例模式·线程·并发编程
hqxstudying28 分钟前
java依赖注入方法
java·spring·log4j·ioc·依赖
·云扬·36 分钟前
【Java源码阅读系列37】深度解读Java BufferedReader 源码
java·开发语言
martinzh2 小时前
Spring AI 项目介绍
后端
Bug退退退1232 小时前
RabbitMQ 高级特性之重试机制
java·分布式·spring·rabbitmq
小皮侠2 小时前
nginx的使用
java·运维·服务器·前端·git·nginx·github
前端付豪2 小时前
20、用 Python + API 打造终端天气预报工具(支持城市查询、天气图标、美化输出🧊
后端·python
爱学习的小学渣2 小时前
关系型数据库
后端
武子康2 小时前
大数据-33 HBase 整体架构 HMaster HRegion
大数据·后端·hbase
前端付豪2 小时前
19、用 Python + OpenAI 构建一个命令行 AI 问答助手
后端·python