25 | 内存持续上升，我该如何排查问题？

你好，我是刘超。

我想你肯定遇到过内存溢出，或是内存使用率过高的问题。碰到内存持续上升的情况，其实我们很难从业务日志中查看到具体的问题，那么面对多个进程以及大量业务线程，我们该如何精准地找到背后的原因呢？

常用的监控和诊断内存工具

工欲善其事，必先利其器。平时排查内存性能瓶颈时，我们往往需要用到一些Linux命令行或者JDK工具来辅助我们监测系统或者虚拟机内存的使用情况，下面我就来介绍几种好用且常用的工具。

Linux命令行工具之top命令

top命令是我们在Linux下最常用的命令之一，它可以实时显示正在执行进程的CPU使用率、内存使用率以及系统负载等信息。其中上半部分显示的是系统的统计信息，下半部分显示的是进程的使用率统计信息。

除了简单的top之外，我们还可以通过top -Hp pid查看具体线程使用系统资源情况：

Linux命令行工具之vmstat命令

vmstat是一款指定采样周期和次数的功能性监测工具，我们可以看到，它不仅可以统计内存的使用情况，还可以观测到CPU的使用率、swap的使用情况。但vmstat一般很少用来查看内存的使用情况，而是经常被用来观察进程的上下文切换。

r：等待运行的进程数；
b：处于非中断睡眠状态的进程数；
swpd：虚拟内存使用情况；
free：空闲的内存；
buff：用来作为缓冲的内存数；
si：从磁盘交换到内存的交换页数量；
so：从内存交换到磁盘的交换页数量；
bi：发送到块设备的块数；
bo：从块设备接收到的块数；
in：每秒中断数；
cs：每秒上下文切换次数；
us：用户CPU使用时间；
sy：内核CPU系统使用时间；
id：空闲时间；
wa：等待I/O时间；
st：运行虚拟机窃取的时间。

Linux命令行工具之pidstat命令

pidstat是Sysstat中的一个组件，也是一款功能强大的性能监测工具，我们可以通过命令：yum install sysstat安装该监控组件。之前的top和vmstat两个命令都是监测进程的内存、CPU以及I/O使用情况，而pidstat命令则是深入到线程级别。

通过pidstat -help命令，我们可以查看到有以下几个常用的参数来监测线程的性能：

常用参数：

-u：默认的参数，显示各个进程的cpu使用情况；
-r：显示各个进程的内存使用情况；
-d：显示各个进程的I/O使用情况；
-w：显示每个进程的上下文切换情况；
-p：指定进程号；
-t：显示进程中线程的统计信息。

我们可以通过相关命令（例如ps或jps）查询到相关进程ID，再运行以下命令来监测该进程的内存使用情况：

其中pidstat的参数-p用于指定进程ID，-r表示监控内存的使用情况，1表示每秒的意思，3则表示采样次数。

其中显示的几个关键指标的含义是：

Minflt/s：任务每秒发生的次要错误，不需要从磁盘中加载页；
Majflt/s：任务每秒发生的主要错误，需要从磁盘中加载页；
VSZ：虚拟地址大小，虚拟内存使用KB；
RSS：常驻集合大小，非交换区内存使用KB。

如果我们需要继续查看该进程下的线程内存使用率，则在后面添加-t指令即可：

我们知道，Java是基于JVM上运行的，大部分内存都是在JVM的用户内存中创建的，所以除了通过以上Linux命令来监控整个服务器内存的使用情况之外，我们更需要知道JVM中的内存使用情况。JDK中就自带了很多命令工具可以监测到JVM的内存分配以及使用情况。

JDK工具之jstat命令

jstat可以监测Java应用程序的实时运行情况，包括堆内存信息以及垃圾回收信息。我们可以运行jstat -help查看一些关键参数信息：

再通过jstat -option查看jstat有哪些操作：

-class：显示ClassLoad的相关信息；
-compiler：显示JIT编译的相关信息；
-gc：显示和gc相关的堆信息；
-gccapacity：显示各个代的容量以及使用情况；
-gcmetacapacity：显示Metaspace的大小；
-gcnew：显示新生代信息；
-gcnewcapacity：显示新生代大小和使用情况；
-gcold：显示老年代和永久代的信息；
-gcoldcapacity ：显示老年代的大小；
-gcutil：显示垃圾收集信息；
-gccause：显示垃圾回收的相关信息（通-gcutil），同时显示最后一次或当前正在发生的垃圾回收的诱因；
-printcompilation：输出JIT编译的方法信息。

它的功能比较多，在这里我例举一个常用功能，如何使用jstat查看堆内存的使用情况。我们可以用jstat -gc pid查看：

S0C：年轻代中To Survivor的容量（单位KB）；
S1C：年轻代中From Survivor的容量（单位KB）；
S0U：年轻代中To Survivor目前已使用空间（单位KB）；
S1U：年轻代中From Survivor目前已使用空间（单位KB）；
EC：年轻代中Eden的容量（单位KB）；
EU：年轻代中Eden目前已使用空间（单位KB）；
OC：Old代的容量（单位KB）；
OU：Old代目前已使用空间（单位KB）；
MC：Metaspace的容量（单位KB）；
MU：Metaspace目前已使用空间（单位KB）；
YGC：从应用程序启动到采样时年轻代中gc次数；
YGCT：从应用程序启动到采样时年轻代中gc所用时间(s)；
FGC：从应用程序启动到采样时old代（全gc）gc次数；
FGCT：从应用程序启动到采样时old代（全gc）gc所用时间(s)；
GCT：从应用程序启动到采样时gc用的总时间(s)。

JDK工具之jstack命令

这个工具在模块三的答疑课堂中介绍过，它是一种线程堆栈分析工具，最常用的功能就是使用 jstack pid 命令查看线程的堆栈信息，通常会结合top -Hp pid 或 pidstat -p pid -t一起查看具体线程的状态，也经常用来排查一些死锁的异常。

每个线程堆栈的信息中，都可以查看到线程ID、线程的状态（wait、sleep、running 等状态）以及是否持有锁等。

JDK工具之jmap命令

在第23讲中我们使用过jmap查看堆内存初始化配置信息以及堆内存的使用情况。那么除了这个功能，我们其实还可以使用jmap输出堆内存中的对象信息，包括产生了哪些对象，对象数量多少等。

我们可以用jmap来查看堆内存初始化配置信息以及堆内存的使用情况：

我们可以使用jmap -histo[:live] pid查看堆内存中的对象数目、大小统计直方图，如果带上live则只统计活对象：

我们可以通过jmap命令把堆内存的使用情况dump到文件中：

我们可以将文件下载下来，使用 MAT 工具打开文件进行分析：

下面我们用一个实战案例来综合使用下刚刚介绍的几种工具，具体操作一下如何分析一个内存泄漏问题。

实战演练

我们平时遇到的内存溢出问题一般分为两种，一种是由于大峰值下没有限流，瞬间创建大量对象而导致的内存溢出；另一种则是由于内存泄漏而导致的内存溢出。

使用限流，我们一般就可以解决第一种内存溢出问题，但其实很多时候，内存溢出往往是内存泄漏导致的，这种问题就是程序的BUG，我们需要及时找到问题代码。

下面我模拟了一个内存泄漏导致的内存溢出案例，我们来实践一下。

我们知道，ThreadLocal的作用是提供线程的私有变量，这种变量可以在一个线程的整个生命周期中传递，可以减少一个线程在多个函数或类中创建公共变量来传递信息，避免了复杂度。但在使用时，如果ThreadLocal使用不恰当，就可能导致内存泄漏。

这个案例的场景就是ThreadLocal，下面我们模拟对每个线程设置一个本地变量。运行以下代码，系统一会儿就发送了内存溢出异常：

    @RequestMapping(value = "/test0")
    public String test0(HttpServletRequest request) {
        ThreadLocal<Byte[]> localVariable = new ThreadLocal<Byte[]>();
        localVariable.set(new Byte[4096*1024]);// 为线程添加变量
        return "success";
    }

在启动应用程序之前，我们可以通过HeapDumpOnOutOfMemoryError和HeapDumpPath这两个参数开启堆内存异常日志，通过以下命令启动应用程序：

java -jar -Xms1000m -Xmx4000m -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/heapdump.hprof  -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Xloggc:/tmp/heapTest.log heapTest-0.0.1-SNAPSHOT.jar

首先，请求test0链接10000次，这个时候我们请求test0的接口报异常了。

通过日志，我们很好分辨这是一个内存溢出异常。我们首先通过Linux系统命令查看进程在整个系统中内存的使用率是多少，最简单就是top命令了。

从top命令查看进程的内存使用情况，可以发现在机器只有8G内存且只分配了4G内存给Java进程的情况下，Java进程内存使用率已经达到了55%，再通过top -Hp pid查看具体线程占用系统资源情况。

再通过jstack pid查看具体线程的堆栈信息，可以发现该线程一直处于 TIMED_WAITING 状态，此时CPU使用率和负载并没有出现异常，我们可以排除死锁或I/O阻塞的异常问题了。

我们再通过jmap查看堆内存的使用情况，可以发现，老年代的使用率几乎快占满了，而且内存一直得不到释放：

通过以上堆内存的情况，我们基本可以判断系统发生了内存泄漏。下面我们就需要找到具体是什么对象一直无法回收，什么原因导致了内存泄漏。

我们需要查看具体的堆内存对象，看看是哪个对象占用了堆内存，可以通过jmap查看存活对象的数量：

Byte对象占用内存明显异常，说明代码中Byte对象存在内存泄漏，我们在启动时，已经设置了dump文件，通过MAT打开dump的内存日志文件，我们可以发现MAT已经提示了byte内存异常：

再点击进入到Histogram页面，可以查看到对象数量排序，我们可以看到Byte[]数组排在了第一位，选中对象后右击选择with incomming reference功能，可以查看到具体哪个对象引用了这个对象。

在这里我们就可以很明显地查看到是ThreadLocal这块的代码出现了问题。

总结

在一些比较简单的业务场景下，排查系统性能问题相对来说简单，且容易找到具体原因。但在一些复杂的业务场景下，或是一些开源框架下的源码问题，相对来说就很难排查了，有时候通过工具只能猜测到可能是某些地方出现了问题，而实际排查则要结合源码做具体分析。

可以说没有捷径，排查线上的性能问题本身就不是一件很简单的事情，除了将今天介绍的这些工具融会贯通，还需要我们不断地去累积经验，真正做到性能调优。

思考题

除了以上我讲到的那些排查内存性能瓶颈的工具之外，你知道要在代码中对JVM的内存进行监控，常用的方法是什么？

期待在留言区看到你的分享。也欢迎你点击“请朋友读”，把今天的内容分享给身边的朋友，邀请他一起讨论。

精选留言

每天晒白牙

2019-07-18 18:06:28

放两篇自己在工作中排查JVM问题的两篇文章【非广告，纯技术文】
https://mp.weixin.qq.com/s/ji_8NhN4NnEHrfAlA9X_ag

https://mp.weixin.qq.com/s/IPi3xiordGh-zcSSRie6nA

作者回复

赞！

2019-07-22 09:47:05
我已经设置了昵称

2019-07-18 23:39:38

老师是否可以讲下如何避免threadLocal内存泄漏呢

作者回复

我们知道，ThreadLocal是基于ThreadLocalMap实现的，这个Map的Entry继承了WeakReference，而Entry对象中的key使用了WeakReference封装，也就是说Entry中的key是一个弱引用类型，而弱引用类型只能存活在下次GC之前。

如果一个线程调用ThreadLocal的set设置变量，当前ThreadLocalMap则新增一条记录，此时ThreadLocal实例没有外部强引用，当发生一次垃圾回收，此时key值被回收，而value值依然存在内存中，由于当前线程一直存在，所以value值将一直被引用。.

这些被垃圾回收掉的key就存在一条引用链的关系一直存在：Thread --> ThreadLocalMap-->Entry-->Value，这条引用链会导致Entry不会回收，Value也不会回收，但Entry中的Key却已经被回收的情况，造成内存泄漏。

我们只需要在使用完该key值之后，通过remove方法remove掉，就可以防止内存泄漏了。

2019-07-19 13:20:51
WL

2019-07-18 20:59:11

请问一下老师内存泄露和内存溢出具体有啥区别，有点不太理解内存泄露的概念。

作者回复

内存泄漏是指不再使用的对象无法得到及时的回收，持续占用内存空间，从而造成内存空间的浪费。例如，我们之前在第3讲中聊到的在Java6中substring方法可能会导致内存泄漏情况发生。当调用substring方法时会调用new string构造函数，此时会复用原来字符串的char数组，而如果我们仅仅是用substring获取一小段字符，而原本string字符串非常大的情况下，substring的对象如果一直被引用，由于substring的里面的char数组仍然指向原字符串，此时string字符串也无法回收，从而导致内存泄露。

内存溢出则是发生了OutOfMemoryException，内存溢出的情况有很多，例如堆内存空间不足，栈空间不足，以及方法区空间不足都会发生内存溢出异常。

内存泄漏与内存溢出的关系：内存泄漏很容易导致内存溢出，但内存溢出不一定是内存泄漏导致的。

2019-07-19 13:22:00
怪盗キッド

2019-09-22 00:41:17

我开源了一个 Java 性能监控工具，就是用 JDK 自带的接口实现的。
GitHub 地址：https://github.com/LinShunKang/MyPerf4J

作者回复

👍

2019-10-02 09:53:04
Rain

2019-08-04 16:59:23

老师，为什么线程要sleep一下，看了注释还是不理解，求告知

作者回复

正常情况下，如果一个线程set之后，该线程销毁了，然后key值由于弱引用刚好遇到一次GC，被回收了，此时value已经出现内存泄漏。而threadlocal为了解决这个问题，在后面的线程进行set时，会把之前key值为null的value清空掉，所以就不会出现大量内存泄漏了。

所以我们要模拟的就是，在后面进来的线程set之前，保证之前的线程还没有销毁，之前的key value就会保持，这样我们能模拟出大量value内存泄漏的情况出现。

2019-08-06 10:52:06
昨夜的柠檬

2019-10-27 14:38:27

实际项目中很多都是这样的，老师正确的写法应该是怎样的？

作者回复

正确的写法是在set之后，记得在finally里面remove掉。

try{
localthread.set("test");
}finally{
localthread.remove("test");
}

2019-10-31 18:51:12
CRann

2019-07-31 10:19:44

老师，刚看案例top命令后java的pid是1444，可是为什么后来查线程信息变成top -Hd 1593了？

作者回复

截图截错了，自己操作的时候记得输入正确的pid就好了。

2019-08-02 10:35:45
Bruce

2020-05-13 13:29:25

问下老师，jmap和jstack命令能查历史的数据，譬如想查昨天的？

作者回复

只能查看运行时的数据，如果需要历史数据，可以在JVM启动参数中加入dump日志参数，启动长时间JVM日志监控：
启动OOM监控日志：-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/heapdump.hprof
启动GC日志：-XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Xloggc:/tmp/heapTest.log

2020-05-16 16:11:37
殿小二

2019-12-03 17:05:40

老师 "而threadlocal为了解决这个问题，在后面的线程进行set时，会把之前key值为null的value清空掉，所以就不会出现大量内存泄漏了。" 后面的线程set的时候也只会在自己持有的ThreadLocalMap上进行操作吧,没有所谓的清空 key为null的value的值吧

作者回复

是的，后面线程的set只是在当前线程的ThreadLocalMap上进行操作，不能清空其他线程ThreadLocalMap上已经泄漏的value值。这里指的是同一个线程，ThreadLocal实例没有外部强引用的情况下被回收了，此时key值会被回收，下一次在相同线程下set，value值会被清掉。

2019-12-05 20:08:24
偏偏喜欢你

2019-11-21 17:24:45

老是您好最近看到项目有报内存溢出，发现是byte[]的问题，但是在Histogram 下看到排在第一位的是char[]数组，排第二的是byte[]
我是去排查char[]呢还是byte[]

作者回复

这两个都是基础数据类型数组，例如char[]是String的基础数据类型，byte[]则是数据传输字节流的基础数据类型，排在第一二是比较常见的，我们需要再看看大小，如果异常大，那就是该基础数据类型之上的某个引用类型的问题。可以通过工具再展开树看看封装基础数据类型的引用类型是什么。

2019-11-24 15:14:08
星星滴蓝天

2019-08-05 17:52:02

代码中对jvm监控常用方法是啥？我翻了翻留言，没有人问这个问题的

作者回复

可以通过ManagementFactory中的RuntimeMXBean实时获取JVM对应的值

2019-09-17 21:03:33
Alex

2020-01-29 01:38:39

老师好，不好意思，想问一下，本门课程案例代码的git地址在哪里？我没有找到

作者回复

由于代码比较少，这篇没有提交到github上，麻烦自己建个项目，拷贝下文章中的代码上去就好了。

2020-02-12 19:39:06
skull

2020-12-10 19:14:39

treadLocal会随着线程被回收而消失的，不会一直存在，极端情况才会内存泄漏
vvip

2020-03-30 23:54:56

老师，请问JVM上始终开启HeapDumpOnOutOfMemoryError这个参数，会影响性能吗？

作者回复

有性能损耗

2020-04-01 19:44:14
丁奇老师的粉丝

2019-11-09 10:58:37

老师您好，看了您的课程收货颇丰！谢谢
现在有个问题想咨询下

前提：jdk7u24 xms8g xmx8g g1垃圾回收
现象：
堆内存使用量从2G一直到6.3G都没有young gc 和 full gc

当堆内存使用量到了7G的时候直接进行了full gc
并且周期性重复上面的full gc
查看GC日志 eden区回收前高达6.3G

请问老师。现在该如何调优呢

作者回复

如果没有设置年轻代与老年代的比例，默认分配给年轻代最大比例为60%，而且默认会先触发young gc，所以你说的这种情况比较少见，检查是否长时间存活的对象太多导致的。

这种情况优化设置参数已经没有很明显的作用了，建议先查找内存爆满的原因。

2019-11-10 18:18:19
小麦

2021-11-19 14:50:54

Linux性能工具的这部分内容和《实战 JAVA 虚拟机》的 6.1 节完全一样
null

2021-04-29 17:02:41

老师，请问一下，文章是二次修改过么？评论区有些关键字如：sleep，test0，test1。
我在文章只看到 test0 方法。另两个都没找到。
谢谢！
Feng

2019-08-31 10:30:36

没看到有test1啊。。。

作者回复

之前的代码已经优化了，所以去掉了test1，重写写了test0方法，两个方法对于大家来说不是很好理解

2019-09-02 19:52:25
WolvesLeader

2019-08-21 14:05:48

java -jar -Xms1000m -Xmx4000m -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/heapdump.hprof -Xms1g -Xmx1g -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Xloggc:/tmp/heapTest.log heapTest-0.0.1-SNAPSHOT.jar
配置了2个-Xms和-Xmx，为啥要配置2个

作者回复

一个就够了，已修正

2019-08-22 09:24:57
拒绝

2019-07-18 14:04:07

我用ab测试，设置请求数量一万，请求test0，内存就溢出，；还没请求到test1,？

作者回复

内存泄露导致有大量对象无法回收，占满了堆内存情况下，就会导致内存溢出。我在这里加了一个test1只是为了创建更多的对象，从而更容易发生内存溢出。

2019-07-19 07:42:45