使用iterparse()解析大型XML会消耗太多内存。有其他替代方法吗？

Question

使用iterparse()解析大型XML会消耗太多内存。有其他替代方法吗？

3

我正在使用带有最新lxml库的python 2.7版本。我正在解析一个非常同质化结构和数百万个元素的大型XML文件。我认为lxml的iterparse在解析时不会构建内部树，但显然它确实这样做了，因为内存使用量增加到崩溃（约1GB）。有没有一种方法可以在不使用太多内存的情况下使用lxml解析大型XML文件？

我看到目标解析器接口是一种可能性，但我不确定它是否会更好。

- Lycha

2个回答

0

我曾经遇到过这个问题，并从http://effbot.org/zone/element-iterparse.htm#incremental-parsing中得到了一些提示，最终解决了它：

elems = ET.Element('MyElements')
for event, elem in ET.iterparse(filename):
    if is_needed(elem): # implement this condition however you like
        elems.append(elem)
    else:
        elem.clear()

这将为您提供一棵仅包含所需元素的树，而在解析过程中不需要不必要的内存。

- John Zwinck

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- unutbu · Accepted Answer

尝试使用Liza Daly的fast_iter：

def fast_iter(context, func, args=[], kwargs={}):
    # http://www.ibm.com/developerworks/xml/library/x-hiperfparse/
    # Author: Liza Daly
    for event, elem in context:
        func(elem, *args, **kwargs)
        elem.clear()
        while elem.getprevious() is not None:
            del elem.getparent()[0]
    del context

"fast_iter"在解析完元素后会从树中移除它们，以及不再需要的之前的元素（可能带有其他标签）。

可以像这样使用它：

import lxml.etree as ET
def process_element(elem):
    ...
context=ET.iterparse(filename, events=('end',), tag=...)        
fast_iter(context, process_element)