3-2 运行时数据区(下)


运行时数据区(下)

栈、堆、方法区关系

栈、堆、方法区关系

堆

堆空间内部结构:

堆空间内部结构

堆的核心概述

  • 一个JVM实例(进程)只存在一个堆内存,堆也是Java内存管理的核心区域。
  • Java堆区在JVM启动的时候即被创建,其空间大小也就确定了。是JVM管理的最大一块内存空间。
    • 堆内存的大小是可以调节的。
  • 《Java虚拟机规范》规定,堆可以处于物理上不连续的内存空间中,但在逻辑上它应该被视为连续的
  • 所有的线程共享Java堆,在这里还可以划分线程私有的缓冲区( Thread Local Allocation Buffer, TLAB)。
  • 《Java虚拟机规范》中对Java堆的描述是:所有的对象实例以及数组都应当在运行时分配在堆上。(The heap is the run-time data area fromwhich memory for all class instances and arrays is allocated )
    • 我要说的是:“几乎”所有的对象实例都在这里分配内存。—从实际
      使用角度看的。
  • 数组和对象可能永远不会存储在栈上,因为栈帧中保存引用,这个引用指向对象或者数组在堆中的位置。
  • 在方法结束后,堆中的对象不会马上被移除,仅仅在垃圾收集的时候才会被移除。(频繁GC会影响用户进程执行效率
  • 堆,是GC ( Garbage collection,垃圾收集器)执行垃圾回收的重点区域。

内存细分

现代垃圾收集器大部分都基于分代收集理论设计,堆空间细分为:

  • Java 7及之前堆内存逻辑上分为三部分:新生区+养老区+永久区
  • Java 8及之后堆内存逻辑上分为三部分:新生区+养老区+元空间
  • 约定: 新生区=新生代=年轻代;养老区=老年区=老年代;永久区=永久代

堆空间大小设置

  • Java堆区用于存储Java对象实例,那么堆的大小在JVM启动时就已经设定好了,大家可以通过选项”-Xmx”和”-Xms”来进行设置。
    • -xms 用于表示唯区的起始内存,等价于-XX:InitialHeapsize
    • -Xmx则用于表示堆区的最大内存,等价于-XX:MaxHeapsize
    • -XX:+PrintGCDetails 表示在控制台打印 GC 执行过程
  • 一旦堆区中的内存大小超过“一Xmx”所指定的最大内存时,将会抛出OutOfMemoryError异常。
  • 通常会将-Xms和—Xmx两个参数配置相同的值,其目的是为了能够在java垃圾回收机制清理完堆区后不需要重新分隔计算堆区的大小,从而提高性能。
  • 默认情况下,初始内存大小:物理电脑内存大小/64;最大内存大小:物理电脑内存大小/ 4
  • 查看方式(管理员命令行):
    • jps 查看进程;
    • jstat -gc 进程id,查看内存大小

年轻代与老年代

  • 存储在JVM中的Java对象可以被划分为两类:
    • 一类是生命周期较短的瞬时对象,这类对象的创建和消亡都非常迅速
    • 另外一类对象的生命周期却非常长,在某些极端的情况下还能够与JVM的生命周期保持一致。
  • Java堆区进一步细分的话,可以划分为年轻代 (YoungGen)和老年代(oldGen)
  • 其中年轻代又可以划分为Eden空间、Survivor0空间和Survivor1空间(有时也叫做from区、to区)。

参数:

  • 配置新生代与老年代在堆结构的占比。
    • 默认-XX:NewRatio=2,表示新生代占1,老年代占2,新生代占整个堆的1/3
    • 可以修改-XX:NewRatio=4,表示新生代占1,老年代占4,新生代占整个堆的1/5
  • 在HotSpot中,Eden空间和另外两个survivor空间缺省所占的比例是8:1:1
  • 当然开发人员可以通过选项“-XX:survivorRatio”调整这个空间比例。比如-XX:survivorRatio=8
  • 几乎所有的Java对象都是在Eden区被new出来的。绝大部分的Java对象的销毁都在新生代进行了。
    • IBM公司的专门研究表明,新生代中80%的对象都是“朝生夕死”的。
  • 可以使用选项”-xmn”设置新生代最大内存大小
    • 这个参数一般使用默认值就可以了。
-XX:NewRatio :设置新生代与老年代的比例。默认值是2.
-XX:SurvivorRatio :设置新生代中Eden区与survivor区的比例。默认8
-XX:-UseAdaptivesizePolicy :关闭自适应的内存分配策略(暂时用不到)
-Xmn:设置新生代的空间的大小。(一般不设置)

对象分配过程

为新对象分配内存是一件非常严谨和复杂的任务,JVM的设计者们不仅需要考虑内存如何分配、在哪里分配等问题,并且由于内存分配算法与内存回收算法密切相关,所以还需要考虑Gc执行完内存回收后是否会在内存空间中产生内存碎片。

  1. new的对象先放伊甸园区。此区有大小限制。

  2. 当伊甸园的空间填满时,程序又需要创建对象,JVM的垃圾回收器将对伊甸园区进行垃圾回收(Minor GC),将伊甸园区中的不再被其他对象所引用的对象进行销毁。再加载新的对象放到伊甸园区

  3. 然后将伊甸园中的剩余对象移动到幸存者0区。

  4. 如果再次触发垃圾回收,此时上次幸存下来的放到幸存者0区的,如果没有回收,就会放到幸存者1区。

  5. 如果再次经历垃圾回收,此时会重新放回幸存者0区,接着再去幸存者1区。

  6. 啥时候能去养老区呢?可以设置次数。默认是15次。

    • 可以设置参数: -XX:MaxTenuringThreshold=进行设置。

总结:

  • 针对幸存者se,s1区的总结:复制之后有交换,谁空谁是to.
  • 关于垃圾回收:频繁在新生区收集,很少在养老区收集,几乎不在永久区/元空间收集。

Minor GC、Major GC、Full Gc

注:运行时方法区 GC 和 ERROR 对比(N代表无,Y代表有)

内存区名称 GC Error
程序计数器 N N
虚拟机栈 N Y(SOF)
本地方法栈 N Y(SOF)
Y Y(OOM)
方法区 Y Y(OOM)

JVM在进行Gc时,并非每次都对上面三个内存(新生代、老年代、方法区)
区域一起回收的,大部分时候回收的都是指新生代。

针对HotSpot VM的实现,它里面的Gc按照回收区域又分为两大种类型:一种是部分收集(Partial Gc) ,一种是整堆收集(Full Gc)

  • 部分收集:不是完整收集整个Java堆的垃圾收集。其中又分为:
    • 新生代收集(Minor Gc / Young Gc):只是新生代(Eden/s0, S1)的垃圾收集
    • 老年代收集(Major Gc / old Gc):只是老年代的垃圾收集。
      • √目前,只有cMS Gc会有单独收集老年代的行为。
      • √注意,很多时候Major GC会和Full Gc混淆使用,需要具体分辨是老年代回收还是整堆回收。
    • 混合收集(Mixed cc):收集整个新生代以及部分老年代的垃圾收集。
      • √目前,只有G1 Gc会有这种行为
  • 整堆收集(Ful1 Gc):收集整个java堆和方法区的垃圾收集。

最简单的分代式GC策略的触发条件

  • 年轻代Gc(Minor GC)触发机制:
    • 当年轻代空间本足时,就会触发Minor Gc,这里的年轻代满指的是 Eden代满,Survivor满不会引发Gc。(每次Minor Gc会清理整个年轻代(包括S0、S1区)的内存。)
    • 因为Java对象大多都具备朝生夕灭的特性,所以 Minor Gc非常频繁,一般回收速度也比较快。这一定义既清晰又易于理解。
    • Minor GC会引发STW( STOP THE WORLD ),暂停其它用户的线程,等垃圾回收结束,用户线程才恢复运行。
  • 老年代GC (Major GC/Full GC)触发机制:
    • 指发生在老年代的Gc,对象从老年代消失时,我们说“Major Gc”或“Full Gc”发生了。
    • 出现了Major GC,经常会伴随至少一次的Minor Gc(但非绝对的,在Parallel
      scavenge收集器的收集策略里就有直接进行Major Gc的策略选择过程)
      • √也就是在老年代空间不足时,会先尝试触发Minor Gc。如果之后空间还不足,则触发Major Gc
    • Major Gc的速度一般会比Minor GC慢10倍以上,STW的时间更长。
    • 如果Major Gc后,内存还不足,就报OOM了。
    • Major cc的速度一般会比Minor GC慢10倍以上。
  • Fu1l GC触发机制:(后面细讲)触发Full GC执行的情况有如下五种:
    • (1)调用system.gc()时,系统建议执行Full Gc,但是不必然执行
    • (2)老年代空间不足
    • (3)方法区空间不足
    • (4)通过Minor GC后进入老年代的平均大小大于老年代的可用内存
    • (5)由Eden区、survivor spacee (From Space)区向survivor space1 (To Space)区复制时,对象大小大于To Space可用内存,则把该对象转存到老年代,且老年代的可用内存小于该对象大小
    • 说明: full gc是开发或调优中尽量要避免的。这样暂停时间会短一些。

堆空间分代思想

  • 为什么需要把Java堆分代?不分代就不能正常工作了吗?
    • 经研究,不同对象的生命周期不同。70%-99%的对象是临时对象。
      • 新生代:有Eden、两块大小相同的survivor (又称为from/to,s0/s1)构成,to总为空。
      • 老年代:存放新生代中经历多次Gc仍然存活的对象。
    • 其实不分代完全可以,分代的唯一理由就是优化GC性能。如果没有分代,那所有的对象都在一块,就如同把一个学校的人都关在一个教室。Gc的时候要找到哪些对象没用,这样就会对堆的所有区域进行扫描。而很多对象都是朝生夕死的,如果分代的话,把新创建的对象放到某一地方,当 GC 的时候先把这块存储“朝生夕死”对象的区域进行回收,这样就会腾出很大的空间出来。

内存分配策略(或对象提升(Promotion)规则)

  • 如果对象在Eden出生并经过第一次MinorGC后仍然存活,并且能被survivor容纳的话,将被移动到survivor 空间中,并将对象年龄设为1 。对象在
    survivor 区中每熬过一次Minorcc ,年龄就增加1岁,当它的年龄增加到一定程度(默认为15 岁,其实每个JVM、每个cc都有所不同)时,就会被晋升到老年代中。
  • 对象晋升老年代的年龄阈值,可以通过选项–XX:MaxTenuringThreshold来设置。
  • 针对不同年龄段的对象分配原则如下所示:
    • 优先分配到Eden
    • 大对象直接分配到老年代
      • 尽量避免程序中出现过多的大对象
    • 长期存活的对象分配到老年代。
    • 动态对象年龄判断
      • 如果survivor区中相同年龄的所有对象大小的总和大于survivor空间的一半,年龄大于或等于该年龄的对象可以直接进入老年代,无须等到MaxTenuringThreshold 中要求的年龄。
    • 空间分配担保
      • -XX:HandlePromotionFailure

为对象分配内存:TLAB(堆区线程私有,非共享区域)

  • 为什么有TLAB ( Thread Local Allocation Buffer ) ?
    • 堆区是线程共享区域,任何线程都可以访问到堆区中的共享数据
    • 由于对象实例的创建在JVM中非常频繁,因此在并发环境下从堆区中划分内存空间是线程不安全的
    • 为避免多个线程操作同一地址,需要使用加锁等机制,进而影响分配速度
  • 什么是TLAB ?
    • 从内存模型而不是垃圾收集的角度,对Eden区域继续进行划分,JVM为每个线程分配了一个私有缓存区域,它包含在Eden空间内。
    • 多线程同时分配内存时,使用TLAB可以避免一系列的非线程安全问题,同时还能够提升内存分配的吞吐量,因此我们可以将这种内存分配方式称之为快速分配策略
    • 据我所知所有openJDK衍生出来的JVM都提供了TLAB的设计。
  • TLAB的再说明:
    • 尽管不是所有的对象实例都能够在TLAB中成功分配内存,但JVM确实是将TLAB作为内存分配的首选
    • 在程序中,开发人员可以通过选项“-XX:UseTLAB”设置是否开启TLAB空间。
    • 默认情况下,TLAB空间的内存非常小,仅占有整个Eden空间的1%,当然我们可以通过选项“-XX:TLABwasteTargetPercent”设置TLAB空间所占用Eden空间的百分比大小。
    • 一旦对象在TLAB空间分配内存失败时,JVM就会尝试着通过使用加锁机制确保数据操作的原子性,从而直接在Eden空间中分配内存。

对象分配过程-TLAB

小结堆空间的参数设置

测试堆空间常用的 jvm 参数:
-XX:+PrintFLagsInitial :查看所有的参数的默认初始值
-XX:+PrintFLagsFinal :查看所有的参数的最终值(可能会存在修改,不再是初始值)

具体查看某个参数的指令:
    cmd(管理员身份)
    jps :查看当前运行中的进程
    jinfo -flag survivorRatio 进程id

-Xms :初始堆空间内存(默认为物理内存的1/64)
-Xmx:最大堆空间内存(默认为物理内存的1/4)
-Xmn:设置新生代的大小。(初始值及最大值)
-XX : NewRatio:配置新生代与老年代在堆结构的占比
-xx: SurvivorRatio:设置新生代中Eden和so/s1空间的比例
-XX:MaxTenuringThreshold:设置新生代垃圾的最大年龄
-XX:+PrintGCDetails:输出详细的GC处理日志
打印gc简要信息:1)-XX: +PrintGc  2)-verbose:gc
-XX:HandlePromotionFailure:是否设置空间分配担保
  • 在发生Minor GC之前,虚拟机会检查老年代最大可用的连续空间是否大于新生代所有对象的总空间
    • 如果大于,则此次Minor Gc是安全的
    • 如果小于,则虚拟机会查看-xX:HandlePromotionFailure设置值是否允许担保失败。
      • 如果HandlePromotionFailure=true,那么会继续检查老年代最大可用连续空间是否大于历次晋升到老年代的对象的平均大小
        • √如果大于,则尝试进行一次Minor GC,但这次Minor GC依然是有风险的;
        • √如果小于,则改为进行一次Full GC。
      • √如果HandlePromotionFailure=false,则改为进行一次Full GC。
  • 在JDK6 Update24(JDK7)之后,HandlePromotionFailure参数不会再影响到虚拟机的空间分配担保策略,观察openJDK中的源码变化,虽然源码中还定义了
    HandlePromotionFailure参数,但是在代码中已经不会再使用它。JDK6 Update24之后的规则变为只要老年代的连续空间大于新生代对象总大小或者历次晋升的平均大小就会进行Minor GC,否则将进行Full GC。

堆是分配对象存储的唯一选择吗?

  • 在《深入理解Java虚拟机》中关于Java堆内存有这样一段描述:
    • 随着JIT编译期的发展与逃逸分析技术逐渐成熟,栈上分配、标量替换优化技术将会导致一些微妙的变化,所有的对象都分配到堆上也渐渐变得不那么绝对了。
  • 在Java虚拟机中,对象是在Java堆中分配内存的,这是一个普遍的常识。但是,有一种特殊情况,那就是如果经过逃逸分析(Escape Analysis)后发现,一个对象并没有逃逸出方法的话,那么就可能被优化成栈上分配。这样就无需在堆上分配内存,也无须进行垃圾回收了。这也是最常见的堆外存储技术。
  • 此外,前面提到的基于openJDK深度定制的TaoBaoVM,其中创新的GCIH (GC
    invisible heap)技术实现off-heap,将生命周期软长的Java对家从heapP王heap外,并且Gc不能管理ccIH内部的Java对象,以此达到降低Gc的回收频率和提升
    Gc的回收效率的目的。

逃逸分析概述

  • 如何将堆上的对象分配到栈,需要使用逃逸分析手段。
  • 这是一种可以有效减少Java程序中同步负载和内存堆分配压力的跨函数全局数据流分析算法。
  • 通过逃逸分析,Java Hotspot编 译器能够分析出一个新的对象的引用的
    使用范围从而决定是否要将这个对象分配到堆上。
  • 逃逸分析的基本行为就是分析对象动态作用域:
    • 当一个对象在方法中被定义后,对象只在方法内部使用,则认为没有发生逃逸
    • 当一个对象在方法中被定义后,它被外部方法所引用,则认为发生逃逸。例如作为调用参数传递到其他地方中。
  • 如何快速的判断是否发生了逃逸分析,就看 new 的对象实体是否有可能在方法外被调用。

结论:

开发中能使用局部变量的,就不要使用在方法外定义。

逃逸分析:代码优化

使用逃逸分析,编译器可以对代码做如下优化:

  • 一、栈上分配。将堆分配转化为栈分配。如果一个对象在子程序中被分配,要使指向该对象的指针永远不会逃逸,对象可能是栈分配的候选,而不是堆分配。
    • JIT编译器在编译期间根据逃逸分析的结果,发现如果一个对象并没有逃逸出方法的话,就可能被优化成栈上分配。分配完成后,继续在调用栈内执行,最后线程结束,栈空间被回收,局部变量对象也被回收。这样就无须进行垃圾回收了。
    • 常见的不能栈上分配的场景
      • 在逃逸分析中,已经说明了。分别是给成员变量赋值、方法返回值、实例引用传递。
  • 二、同步省略。如果一个对象被发现只能从一个线程被访问到,那么对于这个对象的操作可以不考虑同步。
    • 线程同步的代价是相当高的,同步的后果是降低并发性和性能。
    • 在动态编译同步块的时候,JIT编译器可以借助逃逸分析来判断同步块所使用的锁对象是否只能够被一个线程访问而没有被发布到其他线程。如果没有,那么JIT编译器在编译这个同步块的时候就会取消对这部分代码的同步。这样就能大大提高并发性和性能。这个取消同步的过程就叫同步省略,也叫锁消除
  • 三、分离对象或标量替换。有的对象可能不需要作为一个连续的内存结构存在也可以被访问到,那么对象的部分(或全部)可以不存储在内存,而是存储在cPU寄存器中。
    • 标量Scalar 是指一个无法再分解成更小的数据的数据。Java中的原始数据类型就是标量。
    • 相对的,那些还可以分解的数据叫做聚合量(Aggregate) , Java中的对象就是聚合量,因为他可以分解成其他聚合量和标量。
    • 在 JIT 阶段,如果经过逃逸分析,发现一个对象不会被外界访问的话,那么经过JIT优化,就会把这个对象拆解成若干个其中包含的若干个成员变量来代替。这个过程就是标量替换
    • 标量替换参数设置∶
      • 参数-XX:+EliminateAllocations: 开启了标量替换(默认打开),允许将对象打散分配在栈上。

逃逸分析并不成熟

  • 关于逃逸分析的论文在1999年就已经发表了,但直到JDK1.6才有实现,而且这项技术到如今也并不是十分成熟的。
  • 其根本原因就是无法保证逃逸分析的性能消耗一定能高于他的消耗。虽然经过逃逸分析可以做标量替换、栈上分配、和锁消除。但是逃逸分析自身也是需要进行一系列复杂的分析的,这其实也是一个相对耗时的过程。
  • 一个极端的例子,就是经过逃逸分析之后,发现没有一个对象是不逃逸的。那这个逃逸分析的过程就白白浪费掉了。
  • 虽然这项技术并不十分成熟,但是它也是即时编译器优化技术中一个十分重要的手段。
  • 注意到有一些观点,认为通过逃逸分析,JVM会在栈上分配那些不会逃逸的对象,这在理论上是可行的,但是取决于JVM设计者的选择。据我所知,oracle HotspotJVM中并未这么做,这一点在逃逸分析相关的文档里已经说明,所以可以明确所有的对象实例都是创建在堆上。
  • 目前很多书籍还是基于JDK7 以前的版本,JDK已经发生了很大变化,intern字符串的缓存和静态变量曾经都被分配在永久代上,而永久代已经被元数据区取代。但是,intern字符串缓存和静态变量并不是被转移到元数据区,而是直接在堆上分配,所以这一点同样符合前面一点的结论: 对象实例都是分配在堆上。

堆的总结

  • 年轻代是对象的诞生、成长、消亡的区域,一个对象在这里产生、应用,最后被垃圾回收器收集、结束生命。
  • 老年代放置长生命周期的对象,通常都是从survivor区域筛选拷贝过来的Java对象。当然,也有特殊情况,我们知道普通的对象会被分配在TLAB上;如果对象较大,JVM会试图直接分配在Eden其他位置上;如果对象太大,完全无法在新生代找到足够长的连续空闲空间,JVM就会直接分配到老年代。
  • 当Gc只发生在年轻代中,回收年轻代对象的行为被称为MinorGc。当Gc发生在老年代时则被称为MajorGC或者FullGc。一般的,MinorGC的发生频率要比MajorGc高很多,即老年代中垃圾回收发生的频率将大大低于年轻代。

方法区

运行时数据区:

运行时数据区

线程共享与否:

线程共享与否

栈、堆、方法区的交互关系:

栈、堆、方法区的交互关系:

栈、堆、方法区的交互关系

方法区的理解

  • 《Java虚拟机规范》中明确说明:”尽管所有的方法区在逻辑上是属于堆的一部分,但一些简单的实现可能不会选择去进行垃圾收集或者进行压缩。”但对于HotSpot JVM而言,方法区还有一个别名叫做Non-Heap (非堆),目的就是要和堆分开。
  • 所以,方法区看作是一块独立于Java堆的内存空间。
  • 方法区((Method Area)与Java堆一样,是各个线程共享的内存区域。
  • 方法区在JVM启动的时候被创建,并且它的实际的物理内存空间中和Java堆区一样都可以是不连续的。
  • 方法区的大小,跟堆空间一样,可以选择固定大小或者可扩展。
  • 方法区的大小决定了系统可以保存多少个类,如果系统定义了太多的类,导致方法区溢出,虚拟机同样会抛出内存溢出错误: java.lang. outofMemoryError PermGen space或者java.lang.outOfMemoryError: Metaspace
  • 关闭JVM就会释放这个区域的内存。

Hotspot中方法区的演进

  • 在jdk7及以前,习惯上把方法区,称为永久代。jdk8开始,使用元空间取代了永久代。
  • 本质上,方法区和永久代并不等价。仅是对hotspot而言的。《Java虚拟机规范》对如何实现方法区,不做统一要求。
    • 现在来看,当年使用永久代,不是好的idea。导致Java程序更容易OOM(超过-XX:MaxPermsize上限)

JDK7:

JDK7

JDK8:

JDK8

  • 而到了JDK 8,终于完全废弃了永久代的概念,改用与JRockit、J9一样在本地内存中实现的元空间(Metaspace)来代替
  • 元空间的本质和永久代类似,都是对JVM规范中方法区的实现。不过元空间与永久代最大的区别在于: 元空间不在虚拟机设置的内存中,而是使用本地内存。
  • 永久代、元空间二者并不只是名字变了,内部结构也调整了。
  • 根据《Java虚拟机规范》的规定,如果方法区无法满足新的内存分配需求时,将抛出 OOM 异常。

设置方法区大小与OOM

方法区的太小不必是固定的,jvm可以根据应用的需要动态调整。

  • jdk7及以前:
    • 通过-XX : PermSize来设置永久代初始分配空间。默认值是20.75M
    • 一XX:MaxPermSize来设定永久代最大可分配空间。32位机器默认是64M, 64位机器模式是82M
    • 当JVM加载的类信息容量超过了这个值,会报异常outOfMemoryError:PermGen space
  • jdk8及以后:
    • 元数据区大小可以使用参数-XX:MetaspaceSize和-XX:MaxMetaspaceSize指定, 替代上述原有的两个参数。
    • 默认值依赖于平台。windows下,-XX:Metaspacesize是21M,-XX:MaxMetaspacesize 的值是-1,即没有限制。
    • 与永久代不同,如果不指定大小,默认情况下,虚拟机会耗尽所有的可用系统内存。如果元数据区发生溢出,虚拟机一样会抛出异常outOfMemoryError: Metaspace
    • -XX:MetaspaceSize:设置初始的元空间大小。对于一个64位的服务器端JVM来说,其默认的-XX:MetaspaceSize值为21MB。这就是初始的高水位线,一旦触及这个水位线,Full Gc将会被触发并卸载没用的类(即这些类对应的类加载器不再存活),然后这个高水位线将会重置。新的高水位线的值取决于Gc后释放了多少元空间。如果释放的空间不足,那么在不超过MaxMetaspacesize时,适当提高该值。如果释放空间过多,则适当降低该值。
    • 如果初始化的高水位线设置过低,上述高水位线调整情况会发生很多次。通过垃圾回收器的日志可以观察到Full GC多次调用。为了避免频繁地GC ,建议将-XX:Metaspacesize设置为一个相对较高的值。
-XX:Metaspacesize=100m -XX:MaxMetaspacesize=100m

如何解决OOM?

  • 1、要解决OOM异常或heap space的异常,一般的手段是首先通过内存映像分析工具(如Eclipse Memory Analyzer)对dump出来的堆转储快照进行分析,重点是确认内存中的对象是否是必要的,也就是要先分清楚到底是出现了内存泄漏(Memor
    Leak)还是内存溢出(Memory Overflow)。
  • 2、如果是内存泄漏,可进一步通过工具查看泄漏对象到cc Roots 的引用链。于是就能找到泄漏对象是通过怎样的路径与GC Roots相关联并导致垃圾收集器无法自动回收它们的。掌握了泄漏对象的类型信息,以及GC Roots引用链的信息,就可以比较准确地定位出泄漏代码的位置。
  • 3、如果不存在内存泄漏,换句话说就是内存中的对象确实都还必须存活着,那就应当检查虚拟机的堆参数(-Xmx 与-Xms),与机器物理内存对比看是否还可以调大,从代码上检查是否存在某些对象生命周期过长、持有状态时间过长的情况,尝试减少程序运行期的内存消耗。

补充:内存泄漏与内存溢出

只针对JAVA来说

  • 内存泄露本意是申请的内存空间没有被正确释放,导致后续程序里这块内存被永远占用(不可达),而且指向这块内存空间的指针不再存在时,这块内存也就永远不可达了,内存空间就这么一点点被蚕食,借用别人的比喻就是:比如有10张纸,本来一人一张,画完自己擦了还回去,别人可以继续画,现在有个坏蛋要了纸不擦不还,然后还跑了找不到人了,如此就只剩下9张纸给别人用了,这样的人多起来后,最后大家一张纸都没有了。
  • 内存溢出是指存储的数据超出了指定空间的大小,这时数据就会越界,举例来说,常见的溢出,是指在栈空间里,分配了超过数组长度的数据,导致多出来的数据覆盖了栈空间其他位置的数据,这种情况发生时,可能会导致程序出现各种难排查的异常行为,或是被有心人利用,修改特定位置的变量数据达到溢出攻击的目的。而Java中的内存溢出,一般指【OOM:发生位置】这种Error,它更像是一种内存空间不足时发生的错误,并且也不会导致溢出攻击这种问题,举例来说,堆里能存10个数,分了11个数进去,堆就溢出了1个数,JVM会检测、避免、报告这种问题,所以虽然实际上JVM规避了内存溢出带来的问题,但在概念上来说,它确实是溢出才导致的,只是Java程序员在看到这个问题时,脑袋里的反应会是“内存不够了,咋回事,是不是又是哪个大对象没释放”之类,而不是像C程序员“我X被攻击了/程序咋写的搞溢出了”(这段是我臆想的)。同时对于Java来说,传统意义的溢出攻击也无法奏效,因为Java的数组会检查下标,对超出数组下标的赋值会报ArrayOutOfIndex错误。

方法区的内部结构

注意:IDK6中,运行时常量池和字符串常量还在方法区中。

《深入理解Java虚拟机》书中对方法区(Method Area)存储内容描述如下:它用于存储已被虚拟机加载的类型信息、常量、静态变量、即时编译器编译后的代码缓存等。

类型信息

对每个加载的类型(类class、接interface、枚举enum、注解annotation),JVM必须在方法区中存储以下类型信息:

  1. 这个类型的完整有效名称(全名=包名.类名)
  2. 这个类型直接父类的完整有效名(对于interface或是java.lang.0bject,都没有父类)
  3. 这个类型的修饰符(public,abstract, final的某个子集)
  4. 这个类型直接接口的一个有序列表

域(Field)信息(成员变量)

  • JVM必须在方法区中保存类型的所有域的相关信息以及域的声明顺序。
  • 域的相关信息包括: 域名称、域类型、域修饰符(public, private,protected,static,final, volatile,transient的某个子集)

方法(Method)信息

JVM必须保存所有方法的以下信息,同域信息一样包括声明顺序:

  • 方法名称
  • 方法的返回类型(或void)
  • 方法参数的数量和类型(按顺序)
  • 方法的修饰符(public, private,protected,static, final, synchronized,native, abstract的一个子集)
  • 方法的字节码(bytecodes)、操作数栈、局部变量表及大小(abstract和 native方法除外)
  • 异常表(abstract和native方法除外)
    • 每个异常处理的开始位置、结束位置、代码处理在程序计数器中的偏移地址、被捕获的异常类的常量池索引

non-final的类变量

  • 静态变量和类关联在一起,随着类的加载而加载,它们成为类数据在逻辑上的一部分。
  • 类变量被类的所有实例共享,即使没有类实例时你也可以访问它。

补充说明: 全局常量 static final

被声明为final的类变量的处理方法则不同,每个全局常量在编译的时候就会被分配了。

运行时常量池

运行时常量池vs常量池

  • 方法区,内部包含了运行时常量池。
  • 字节码文件,内部包含了常量池。
  • 要弄清楚方法区,需要理解清楚classFile,因为加载类的信息都在方法区。
  • 要弄清楚方法区的运行时常量池,需要理解清楚classFile中的常量池。
    帮助文档 如下:

常量池

  • 一个有效的字节码文件中除了包含类的版本信息、字段、方法以及接口等描述信息外,还包含一项信息那就是常量池表(Constant Pool Table),包括各种字面量和对类型、域和方法的符号引用。
  • 为什么需要常量池?
    • 一个 java 源文件中的类、接口,编译后产生一个字节码文件。而Java中的字节码需要数据支持,通常这种数据会很大以至于不能直接存到字节码里,换另一种方式,可以存到常量池, 这个字节码包含了指向常量池的引用。在动态链接的时候会用到运行时常量池,之前有介绍。
  • 常量池中有什么? 几种在常量池内存储的数据类型包括:
    • 数量值
    • 字符串值
    • 类型引用
    • 字段引用
    • 方法引用

小结:

常量池,可以看做是一张表,虚拟机指令根据这张常量表找到要执行的类名、方法名、参数类型、字面量等类型。

运行时常量池

  • 运行时常量池(Runtime Constant Pool)是方法区的一部分。
  • 常量池表(Constant Pool Table)是class文件的一部分,用于存放编译期生成的各种字面量与符号引用,这部分内容将在类加载后存放到方法区的运行时常量池中。
  • 运行时常量池,在加载类和接口到虚拟机后,就会创建对应的运行时常量池。
  • JVM为每个已加载的类型(类或接口)都维护一个常量池。池中的数据项像数组项一样,是通过索引访问的。
  • 运行时常量池中包含多种不同的常量,包括编译期就已经明确的数值字面量,也包括到运行期解析后才能够获得的方法或者字段引用。此时不再是常量池中的符号地址了,这里换为真实地址。
    • 运行时常量池,相对于class文件常量池的另一重要特征是: 具备动态性
    • String.intern ( )
  • 运行时常量池类似于传统编程语言中的符号表(symbol table),但是它所包含的数据却比符号表要更加丰富一些。
  • 当创建类或接口的运行时常量池时,如果构造运行时常量池所需的内存空间超过了方法区所能提供的最大值,则JVM会抛outofMemoryError异常。

方法区演进细节

Hotspot中方法区的变化:

随着Java8的到来,HotSpot VM中再也见不到永久代了。但是这并不意味着类的元数据信息也消失了。这些数据被移到了一个与堆不相连的本地内存区域,这个区域叫做元空间( Metaspace ) 。

  • 由于类的元数据分配在本地内存中,元空间的最大可分配空间就是系统可用内存空间。
  • 永久代为什么要被元空间替换?
    • 为永久代设置空间大小是很难确定的。在某些场景下,如果动态加载类过多,容易产生Perm 区的ooM。比如某个实际web工程中,因为功能点比较多,在运行过程中,要不断动态加载很多类,经常出现致命错误。
    • 对永久代进行调优是很困难的(Full GC)。
    • 而元空间和永久代之间最大的区别在于: 元空间并不在虚拟机中,而是使用本地内存。因此,默认情况下,元空间的大小仅受本地内存限制。
  • StringTable为什么要调整?
    • jdk7中将stringTable放到了堆空间中I因为永久代的回收效率很低,在full gc的时候才会触发。而full gc是老年代的空间不足、永久代不足时才会触发。这就导致stringTable回收效率不高。而我们开发中会有大量的字符串被创建回收效率低,导致永久代内存不足。放到堆里,能及时回收内存。
  • 结论:
    • 静态引用对应的对象实体始终都存在堆空间

方法区的垃圾回收

  • 有些人认为方法区(如HotSpot虚拟机中的元空间或者永久代)是没有垃圾收集行为的,其实不然。《Java虚拟机规范》对方法区的约束是非常宽松的,提到过可以不要求虚拟机在方法区中实现垃圾收集。事实上也确实有未实现或未能完整实现方法区类型卸载的收集器存在(如JDK 1l时期的zGc收集器就不支持类卸载)。
  • 一般来说这个区域的回收效果比较难令人满意,尤其是类型的卸载,条件相当苛刻。但是这部分区域的回收有时又确实是必要的。以前sun公司的Bug列表中,曾出现过的若干个严重的Bug就是由于低版本的HotSpot虚拟机对此区域未完全回收而导致内存泄漏。
  • 方法区的垃圾收集主要回收两部分内容: 常量池中废弃的常量和不再使用的类型
  • 先来说说方法区内常量池之中主要存放的两大类常量:字面量和符号引用。字面量比较接近Java语言层次的常量概念,如文本字符串、被声明为final的常量值等。而符号引用则属于编译原理方面的概念,包括下面三类常量:
    • 1、类和接口的全限定名
    • 2、字段的名称和描述符
    • 3、方法的名称和描述符
  • HotSpot虚拟机对常量池的回收策略是很明确的,只要常量池中的常量没有被任何地方引用,就可以被回收。
  • 回收废弃常量与回收Java堆中的对象非常类似。
  • 判定一个常量是否“废弃”还是相对简单,而要判定一个类型是否属于“不再被使用的类”的条件就比较苛刻了。需要同时满足下面三个条件:
    • 该类所有的实例都已经被回收,也就是Java堆中不存在该类及其任何派生子类的实例。
    • 加载该类的类加载器已经被回收,这个条件除非是经过精心设计的可替换类加载器的场景,如oSGi、JSP的重加载等,否则通常是很难达成的。
    • 该类对应的java.lang.class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法I
  • Java虚拟机被允许对满足上述三个条件的无用类进行回收,这里说的仅仅是“被允
    许”,而并不是和对象一样,没有引用了就必然会回收。关于是否要对类型进行回收,
    HotSpot虚拟机提供了-Xnoclassgc参数进行控制,还可以使用-verbose:class以及-XX:+Traceclass-Loading、-XX:+TraceclassUnLoading查看类加载和卸载信息
  • 在大量使用反射、动态代理、cGLib等字节码框架,动态生成JSP以及osGi这类频繁自定义类加载器的场景中,通常都需要Java虚拟机具备类型卸载的能力,以保证不会对方法区造成过大的内存压力。

JVM模型图


文章作者: Hailong Gao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Hailong Gao !
评论
  目录