从维基百科XML转储中获取静态HTML文件

17
我希望能够从我从WikiMedia dump page下载的巨大(即使压缩后)英文维基百科XML转储文件enwiki-latest-pages-articles.xml.bz2中获得相对最新的静态HTML文件。有很多工具可用,尽管它们的文档非常缺乏,所以我不知道它们大多数是做什么的,或者它们是否与最新的数据转储保持更新。(我擅长构建能够遍历相对较小的HTML页面/文件的网络爬虫,但我对SQL和XML非常糟糕,并且我预计至少还需要一年才能掌握这两个技能)。我想要能够在离线状态下遍历从转储中获得的HTML文件,而不必在线遍历维基百科。请问是否有好的工具可以从最近的维基百科XML转储中获取静态HTML文件?
1个回答

5
首先,导入数据。然后使用DumpHTML创建HTML文件。虽然理论上很简单,但由于涉及大量数据和DumpHTML被忽视了一些问题,所以不要犹豫,可以寻求帮助

2
此外,这可能需要几周或几个月的时间。几年前,我曾经导入过维基词典转储文件,那时文件大小要小得多,但也需要几天的时间。使用性能强大的计算机会有所帮助。我想知道是否有人可以告诉我们导入需要多长时间。 - hippietrail
处理时间肯定是一个考虑因素。我可能会在某个时候能够获得一台强大的台式机,但我不知道那是否足以处理我们在这里谈论的规模。(我想知道是否有并行解决方案。)我知道有静态HTML转储可用,尽管最近的版本是从2008年开始的,这远远不理想。 - Brian Schmitz
作为离线自定义Ubuntu发行版捆绑的脚本的一部分,动态渲染仅呈现呈现给定页面所需的部分如何?@hippietrail - Luke Stanley
1
@LukeStanley:如果没有相同版本的MediaWiki、相同的扩展集、每个扩展的相同版本、相同的配置和相同的模板集,你就无法正确地呈现MediaWiki页面。如果您可以利用不正确的呈现,则可以少做很多工作。 - hippietrail
@hippietrail 如果这个 Vagrant VM 设置合适的话,那不会太难!http://www.mediawiki.org/wiki/Mediawiki-vagrant 但是一个不太正确的渲染器也许是可以接受的,取决于它的不正确程度 :) - Luke Stanley
有时,“不正确”意味着缺少埋在或由太多层聪明模板构建的重要信息。但没错,这完全正确。 - hippietrail

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接