我正在尝试创建大型RDF/HDT文件,这意味着需要将大型文件读入内存等。由于服务器有516GB的内存,其中约510GB是空闲的,所以这并不是一个问题。
我正在使用rdfhdt库来创建文件,这很好地完成了工作。然而,对于一个特定的文件,我不断收到OutOfMemoryError错误,没有真正的原因。以下是堆栈跟踪:
我正在使用标记
也许最奇怪的是,我遇到问题的特定文件甚至不是最大的文件。作为比例,它有大约83M个三元组要写入,对于其他文件,多达200M个三元组都不是问题。我正在使用Java版本1.8.0_66和Ubuntu版本14.04.3 LTS。
所以我的问题是,有人能解释一下我做错了什么吗?对我来说,更大的文件没有问题,但这个文件有问题。如果您需要任何其他信息,请告诉我。
我正在使用rdfhdt库来创建文件,这很好地完成了工作。然而,对于一个特定的文件,我不断收到OutOfMemoryError错误,没有真正的原因。以下是堆栈跟踪:
Exception in thread "main" java.lang.OutOfMemoryError
at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123)
at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117)
at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153)
at org.rdfhdt.hdt.util.string.ByteStringUtil.append(ByteStringUtil.java:238)
at org.rdfhdt.hdt.dictionary.impl.section.PFCDictionarySection.load(PFCDictionarySection.java:123)
at org.rdfhdt.hdt.dictionary.impl.section.PFCDictionarySection.load(PFCDictionarySection.java:87)
at org.rdfhdt.hdt.dictionary.impl.FourSectionDictionary.load(FourSectionDictionary.java:83)
at org.rdfhdt.hdt.hdt.impl.HDTImpl.loadFromModifiableHDT(HDTImpl.java:441)
at org.rdfhdt.hdt.hdt.writer.TripleWriterHDT.close(TripleWriterHDT.java:96)
at dk.aau.cs.qweb.Main.makePredicateStores(Main.java:137)
at dk.aau.cs.qweb.Main.main(Main.java:69)
我正在使用标记
-Xmx200G
运行Jar文件。奇怪的是,在查看'top'时,它显示VIRT为213G(如预期)。然而,每次RES上升到约94GB时,它就会崩溃,并出现上述错误,这让我觉得很奇怪,因为它应该还有超过100GB可用。我查看了this中的问题,因为问题似乎与我的类似,尽管规模不同。但是,使用-verbose:gc
和-XX:+PrintGCDetails
并没有给我任何指示出错的原因,同时还有大约500G的交换空间可用。也许最奇怪的是,我遇到问题的特定文件甚至不是最大的文件。作为比例,它有大约83M个三元组要写入,对于其他文件,多达200M个三元组都不是问题。我正在使用Java版本1.8.0_66和Ubuntu版本14.04.3 LTS。
所以我的问题是,有人能解释一下我做错了什么吗?对我来说,更大的文件没有问题,但这个文件有问题。如果您需要任何其他信息,请告诉我。