从维基百科XML转储中获取静态HTML文件

Question

从维基百科XML转储中获取静态HTML文件

xml-parsingscreen-scrapingweb-crawlermediawikiwikipedia

17

我希望能够从我从WikiMedia dump page下载的巨大（即使压缩后）英文维基百科XML转储文件enwiki-latest-pages-articles.xml.bz2中获得相对最新的静态HTML文件。有很多工具可用，尽管它们的文档非常缺乏，所以我不知道它们大多数是做什么的，或者它们是否与最新的数据转储保持更新。（我擅长构建能够遍历相对较小的HTML页面/文件的网络爬虫，但我对SQL和XML非常糟糕，并且我预计至少还需要一年才能掌握这两个技能）。我想要能够在离线状态下遍历从转储中获得的HTML文件，而不必在线遍历维基百科。请问是否有好的工具可以从最近的维基百科XML转储中获取静态HTML文件？

- Brian Schmitz

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MaxSem · Accepted Answer

5

首先，导入数据。然后使用DumpHTML创建HTML文件。虽然理论上很简单，但由于涉及大量数据和DumpHTML被忽视了一些问题，所以不要犹豫，可以寻求帮助。

- MaxSem

2

此外，这可能需要几周或几个月的时间。几年前，我曾经导入过维基词典转储文件，那时文件大小要小得多，但也需要几天的时间。使用性能强大的计算机会有所帮助。我想知道是否有人可以告诉我们导入需要多长时间。 - hippietrail

处理时间肯定是一个考虑因素。我可能会在某个时候能够获得一台强大的台式机，但我不知道那是否足以处理我们在这里谈论的规模。（我想知道是否有并行解决方案。）我知道有静态HTML转储可用，尽管最近的版本是从2008年开始的，这远远不理想。 - Brian Schmitz

作为离线自定义Ubuntu发行版捆绑的脚本的一部分，动态渲染仅呈现呈现给定页面所需的部分如何？@hippietrail - Luke Stanley

1

@LukeStanley：如果没有相同版本的MediaWiki、相同的扩展集、每个扩展的相同版本、相同的配置和相同的模板集，你就无法正确地呈现MediaWiki页面。如果您可以利用不正确的呈现，则可以少做很多工作。 - hippietrail

@hippietrail 如果这个 Vagrant VM 设置合适的话，那不会太难！http://www.mediawiki.org/wiki/Mediawiki-vagrant 但是一个不太正确的渲染器也许是可以接受的，取决于它的不正确程度 :) - Luke Stanley

有时，“不正确”意味着缺少埋在或由太多层聪明模板构建的重要信息。但没错，这完全正确。 - hippietrail