维基百科解析器

13

我下载了维基百科的转储文件,我想将Wiki格式转换成我的对象格式。是否有可用的Wiki解析器将对象转换为XML?


+1,因为我正考虑自己动手做。 - Fred Foo
6个回答

7

请查看java-wikipedia-parser。根据文档:

该解析器带有HTML生成器。但是,您可以通过传递自己实现的be.devijver.wikipedia.Visitor接口来控制正在生成的输出。


2

2
JWPL解析器分析带有MediaWiki标记的文本结构,并将其表示为Java对象。这允许以结构化方式访问例如维基百科或维基词典的内容。解析器没有单独的发布版本,因为它是JWPL维基百科API发布的一部分。然而,即使不使用JWPL访问维基百科,它也可以完美地使用。

http://code.google.com/p/jwpl/wiki/JWPLParser


1

0

您可以使用各种工具来解析您的内容。所有脚本语言都有模块。 例如,Perl语言有Text::Markup::Trac,它是用于Text::Markup的Trac wiki语法解析器。它会生成一个HTML文件。


-1

你可以尝试使用Wikiprep,它是一个Perl维基百科解析器(查看页面)

它会输出许多文件,其中一些是:

1- 维基百科解析成XML格式的文件 2- 包含维基百科类别层次结构的cat-hier文件

我已经尝试过它,非常有用。唯一的问题是需要大量内存进行处理,可能需要超过4GB的RAM。同时,你也可以从这里下载预先准备好的XML版本,该链接也在页面上提供。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接