我发现了一个Python脚本(这里:维基百科抽取器),可以从(英文)维基百科数据库转储中生成纯文本。
当我按照脚本页面上所示的命令运行时:
我遇到了这个错误:
文件 "enwiki-latest-pages-articles.xml",第1行 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">
$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted
我遇到了这个错误:
文件 "enwiki-latest-pages-articles.xml",第1行 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">
^
SyntaxError: invalid syntax
我正在 Windows 7 上使用 Python 2.7.6 和 Cygwin 执行脚本。
我希望有过使用该脚本或具有 Python 经验的人能够帮助我解决这个错误。
提前致谢!
cat enwiki-latest-pages-articles.xml | python WikiExtractor.py -b 500K -o extracted
。试一试吧。 - alecxe