基本上,这是一个使用Magnolia(一种CMS系统)的网页,在生产环境中有4个实例可用。有时候CPU会在一个Java进程中达到100%。
因此,第一步是进行线程转储,并检查有问题的线程,我发现很奇怪:
"GC task thread#0 (ParallelGC)" prio=10 tid=0x000000000ce37800 nid=0x7dcb runnable
"GC task thread#1 (ParallelGC)" prio=10 tid=0x000000000ce39000 nid=0x7dcc runnable
好的,这很奇怪,我以前从来没有遇到过垃圾回收器出现这样的问题,接下来我们做的第一件事就是激活JMX,使用jvisualvm检查机器:堆内存使用率非常高(95%)。
天真的方法:增加内存,使问题需要更长时间才能出现。结果,在重新启动后增加了内存(6 GB!)的服务器上,问题出现了20个小时,而在其他内存较小的服务器(4GB!)上运行了10天后,问题仍需要几天的时间才会再次出现。此外,我尝试使用失败的服务器的apache访问日志,并使用JMeter将请求重播到本地服务器中,以尝试复制错误...但也没能成功。
然后我进一步调查了日志,发现了这些错误:
info.magnolia.module.data.importer.ImportException: Error while importing with handler [brightcoveplaylist]:GC overhead limit exceeded
at info.magnolia.module.data.importer.ImportHandler.execute(ImportHandler.java:464)
at info.magnolia.module.data.commands.ImportCommand.execute(ImportCommand.java:83)
at info.magnolia.commands.MgnlCommand.executePooledOrSynchronized(MgnlCommand.java:174)
at info.magnolia.commands.MgnlCommand.execute(MgnlCommand.java:161)
at info.magnolia.module.scheduler.CommandJob.execute(CommandJob.java:91)
at org.quartz.core.JobRunShell.run(JobRunShell.java:216)
at org.quartz.simpl.SimpleThreadPool$WorkerThread.run(SimpleThreadPool.java:549)
Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
另一个例子
Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
at java.util.Arrays.copyOf(Arrays.java:2894)
at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:117)
at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:407)
at java.lang.StringBuilder.append(StringBuilder.java:136)
at java.lang.StackTraceElement.toString(StackTraceElement.java:175)
at java.lang.String.valueOf(String.java:2838)
at java.lang.StringBuilder.append(StringBuilder.java:132)
at java.lang.Throwable.printStackTrace(Throwable.java:529)
at org.apache.log4j.DefaultThrowableRenderer.render(DefaultThrowableRenderer.java:60)
at org.apache.log4j.spi.ThrowableInformation.getThrowableStrRep(ThrowableInformation.java:87)
at org.apache.log4j.spi.LoggingEvent.getThrowableStrRep(LoggingEvent.java:413)
at org.apache.log4j.AsyncAppender.append(AsyncAppender.java:162)
at org.apache.log4j.AppenderSkeleton.doAppend(AppenderSkeleton.java:251)
at org.apache.log4j.helpers.AppenderAttachableImpl.appendLoopOnAppenders(AppenderAttachableImpl.java:66)
at org.apache.log4j.Category.callAppenders(Category.java:206)
at org.apache.log4j.Category.forcedLog(Category.java:391)
at org.apache.log4j.Category.log(Category.java:856)
at org.slf4j.impl.Log4jLoggerAdapter.error(Log4jLoggerAdapter.java:576)
at info.magnolia.module.templatingkit.functions.STKTemplatingFunctions.getReferencedContent(STKTemplatingFunctions.java:417)
at info.magnolia.module.templatingkit.templates.components.InternalLinkModel.getLinkNode(InternalLinkModel.java:90)
at info.magnolia.module.templatingkit.templates.components.InternalLinkModel.getLink(InternalLinkModel.java:66)
at sun.reflect.GeneratedMethodAccessor174.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:622)
at freemarker.ext.beans.BeansWrapper.invokeMethod(BeansWrapper.java:866)
at freemarker.ext.beans.BeanModel.invokeThroughDescriptor(BeanModel.java:277)
at freemarker.ext.beans.BeanModel.get(BeanModel.java:184)
at freemarker.core.Dot._getAsTemplateModel(Dot.java:76)
at freemarker.core.Expression.getAsTemplateModel(Expression.java:89)
at freemarker.core.BuiltIn$existsBI._getAsTemplateModel(BuiltIn.java:709)
at freemarker.core.BuiltIn$existsBI.isTrue(BuiltIn.java:720)
at freemarker.core.OrExpression.isTrue(OrExpression.java:68)
后来我发现,这类问题是由于垃圾回收占用大量CPU而无法释放大量内存所导致的
好的,所以这是一个与内存有关的问题,表现在CPU上,因此,如果解决了内存使用问题,那么CPU就应该没问题了,所以我进行了一次堆转储,但不幸的是,文件太大了,无法打开(文件大小为10GB),不过我在本地运行服务器,加载了一些内容并进行了一次堆转储,打开后,我发现了一些有趣的东西:
有大量实例:
AbstractReferenceMap$WeakRef ==> Takes 21.6% of the memory, 9 million instances
AbstractReferenceMap$ReferenceEntry ==> Takes 9.6% of the memory, 3 million instances
此外,我发现了一个似乎被用作“缓存”的Map(可怕但却是真的),问题在于这样的Map没有同步,并且它是在线程之间共享的(静态的)。问题不仅可能是并发写入,而且还可能是由于缺乏同步,线程A无法看到线程B对Map所做的更改,然而,我无法找出如何使用内存Eclipse分析器链接这个可疑的Map,因为它并没有使用AbstracReferenceMap,而只是普通的HashMap。
不幸的是,我们不直接使用这些类(显然代码使用它们,但不是直接使用),所以我似乎陷入了死胡同。
对我来说存在以下问题:
- 我无法复现错误
- 我无法弄清楚内存泄漏(如果有的话)到底出现在哪里