在Java中使用大型XML DOM时减少内存占用

6
我们的应用程序需要处理以XML格式(多个文件)呈现的客户端数据,并将其解析成我们的通用XML格式(具有模式的单个文件)。为此,我们使用了Apache的XMLBeans数据绑定框架。这个过程的步骤如下:
首先,我们获取指向磁盘上客户端XML文件的原始java.io.File对象并将它们加载到集合中。然后,我们遍历该集合,为每个文件创建一个apache.xmlbeans.XmlObject。在所有文件都被解析为XmlObjects之后,我们创建4个集合,分别保存我们感兴趣的XML文档中的各个对象(请注意,这些不是手工制作的对象,而是由Apache的XMLBeans框架创建的“代理”对象)。最后,我们遍历这些集合以生成我们的XML文档(在内存中),然后将其保存到磁盘。
对于大多数用例,这个过程运行良好,并且可以轻松地在JVM中运行,只需给出“-Xmx1500m”命令行参数即可。但是,当客户端提供“大型数据集”时,问题就会出现。这里的大型数据集是指分布在7个文件中的123Mb的客户端XML。这样的数据集导致我们的代码集合中填充了近40,000个前面提到的“代理对象”。在这些情况下,内存使用量会飙升。我没有收到任何内存不足的异常,程序只是挂起,直到垃圾回收发生,释放一小部分内存,然后程序继续运行,使用这个新的空间,循环重复。这些解析会话目前需要4-5个小时。我们的目标是将其缩短到1个小时以内。
需要注意的是,将客户端XML转换为我们的XML所需的计算需要所有XML数据进行交叉引用。因此,我们无法实现顺序解析模型或将此过程批处理成较小的块。
我尝试了以下方法:
在每次请求数据时,而不是将所有123Mb的客户端XML保存在内存中,加载文件,查找数据并释放对这些对象的引用。这似乎减少了在过程中消耗的内存量,但是正如您可以想象的那样,持续的I/O操作所需的时间抵消了减少的内存占用的好处。
我怀疑问题在于我们正在保存123Mb的XML文件的XmlObject[]以及从这些文档中获取的对象集合(使用xpath查询)。为了解决这个问题,我改变了逻辑,使得不再查询这些集合,而是直接查询文档。这里的想法是,在任何时候都不存在大量包含成千上万个对象的4个大型列表,只有大型的XmlObjects集合。但是,这似乎没有任何影响,并且在某些情况下,甚至增加了内存占用。
现在我只是在抓住最后的稻草,考虑到我们在内存中构建xml之前使用的XmlObject过于庞大,无法与所有客户端数据一起维护。但是,对这个对象进行了一些sizeOf查询后发现,在其最大的情况下,该对象不到10Kb。在阅读有关XmlBeans如何管理大型DOM对象的文章后,它似乎使用某种缓冲写入器,并因此很好地管理了这个对象。
所以现在我已经没有什么主意了;不能使用SAX方法代替内存密集的DOM方法,因为我们需要100%的客户端数据在我们的应用程序中任何时候,不能推迟请求这些数据,直到我们绝对需要它,因为转换过程需要大量循环,磁盘I / O时间不值得节省的内存空间,并且我似乎无法以减少内部java集合所占用的空间的方式来构造我们的逻辑。我在这里没戏了吗?如果我想将123Mb的xml数据解析成我们的Xml格式,那么我是否必须接受1500m内存分配不足的事实?虽然在我们的领域中,123Mb是一个大型数据集,但我无法想象其他人从未不得不同时处理Gb的数据。
其他可能重要的信息:
- 我已经使用JProbe尝试查看它是否可以告诉我任何有用的信息。虽然我是一个分析新手,但我运行了他们关于内存泄漏和线程锁定的教程,理解了它们,并且我们的代码中似乎没有任何泄漏或瓶颈。在使用大型数据集运行应用程序后,我们很快就会在内存分析屏幕上看到“锯齿形”类型的形状(请参见附图),其中PS Eden空间被一个巨大的PS Old Gen绿色块所占据。这导致我相信,问题在于对象集合所占用的空间量而不是泄漏保留未使用的内存。 - 我正在运行64位Windows 7平台,但这将需要在32位环境中运行。

也许大小并不重要,但你从我这里得到了+1的支持;-)。 - Tomasz Nurkiewicz
1个回答

4
我会采取的方法是,在两次文件处理中使用SAX技术。第一次处理将把“交叉引用”数据解析为自定义对象,并存储到Map中以备后续计算所需。如果“交叉引用”数据较大,则考虑使用分布式缓存(如果您已经使用了Map,则Coherence是天然的选择)。第二次处理将解析文件,检索“交叉引用”数据并根据需要执行计算,最后使用javax.xml.stream API编写输出XML。

1
我已将其标记为答案,尽管无法在两个解析中完成此处理,但尝试这样做让我发现了大内存占用的真正原因。这是由于Apache的XMLBeans框架生成的DOM与相应的XML文档相比过大,因此我删除了该框架的使用,并编写了一个SAX解析器来填充我的POJO,问题得到解决。 - user407356
1
是的,所有创建XML对象表现形式的API似乎都容易产生冗长,因此会占用内存。就我个人而言,虽然最初可能需要花费更多时间,但我更喜欢控制XML如何加载到对象模型中。 - Nick Holt

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接