我正在使用XPath从XML文件中提取大块内容。我的XML文件很大,它们来自PubMed。我的文件类型示例是:ftp://ftp.ncbi.nlm.nih.gov/pubmed/baseline/medline17n0001.xml.gz。因此,通过使用XPath表达式,我可以轻松地提取所需的信息。
我使用 PMIDtoSearch 获取文章,这很完美。但是这需要很长时间。我需要做大约 800,000 次,所以使用这种解决方案需要超过两个月的时间。有些块有超过 400 行,每个 XML 文件有超过 4 百万行。
我也尝试了像
您知道如何改进这个解决方案吗?
谢谢。
Node result = (Node)xPath.evaluate("PubmedArticleSet/PubmedArticle[MedlineCitation/PMID = "+PMIDtoSearch+"]", doc, XPathConstants.NODE);
我使用 PMIDtoSearch 获取文章,这很完美。但是这需要很长时间。我需要做大约 800,000 次,所以使用这种解决方案需要超过两个月的时间。有些块有超过 400 行,每个 XML 文件有超过 4 百万行。
我也尝试了像
getElementsByTagName
函数这样的解决方案,但它几乎需要同样的时间。您知道如何改进这个解决方案吗?
谢谢。