从维基百科数据库转储生成纯文本

6
我发现了一个Python脚本(这里:维基百科抽取器),可以从(英文)维基百科数据库转储中生成纯文本。 当我按照脚本页面上所示的命令运行时:
$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted

我遇到了这个错误:
文件 "enwiki-latest-pages-articles.xml",第1行 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">
^
SyntaxError: invalid syntax

我正在 Windows 7 上使用 Python 2.7.6 和 Cygwin 执行脚本。

我希望有过使用该脚本或具有 Python 经验的人能够帮助我解决这个错误。

提前致谢!

1个回答

17

使用Python时,第一个参数应该是脚本名称。

您可能需要交换xml和py文件名:

$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted

感谢您的回复。虽然我使用的是脚本页面中所述的正确顺序,但我尝试了您建议的顺序,并得到了这个结果:“Usage: WikiExtractor.py [options]”,这意味着文件名应该放在第一位。 - Asim
6
@Asim,我认为你几乎是正确的 - 文件内容应该被连接到维基百科提取器,例如 cat enwiki-latest-pages-articles.xml | python WikiExtractor.py -b 500K -o extracted。试一试吧。 - alecxe
哇,终于可以工作了!非常感谢你,我真的很感激。 - Asim
4
@Asim请考虑接受这个答案,谢谢。 - alecxe

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接