Python NLTK下载时出现解析器错误。

6

我想运行以下命令:

import nltk
nltk.download('all')

但是我遇到了这个错误。
Traceback (most recent call last):
  File "./update.py", line 3, in <module>
    nltk.download('all')
  File "/usr/lib/python3.6/site-packages/nltk/downloader.py", line 664, in download
    for msg in self.incr_download(info_or_id, download_dir, force):
  File "/usr/lib/python3.6/site-packages/nltk/downloader.py", line 534, in incr_download
    try: info = self._info_or_id(info_or_id)
  File "/usr/lib/python3.6/site-packages/nltk/downloader.py", line 508, in _info_or_id
    return self.info(info_or_id)
  File "/usr/lib/python3.6/site-packages/nltk/downloader.py", line 875, in info
    self._update_index()
  File "/usr/lib/python3.6/site-packages/nltk/downloader.py", line 825, in _update_index
    ElementTree.parse(compat.urlopen(self._url)).getroot())
  File "/usr/lib/python3.6/xml/etree/ElementTree.py", line 1196, in parse
    tree.parse(source, parser)
  File "/usr/lib/python3.6/xml/etree/ElementTree.py", line 597, in parse
    self._root = parser._parse_whole(source)
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 23, column 143

我是Python的新手,所以不太确定应该做什么。 我查看了上面报告的源模块并注意到它正在尝试下载xml文件。所以我运行了下面的命令,并没有出现任何错误。

compat.urlopen('https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml')

所以我认为问题不在下载上,而是在解析器上。有人可以建议我从这里怎么继续吗?


同样的问题在这里。 - Bart
我也遇到了这个问题。 - Max L
几个小时前开始发生在我身上。 - silentser
2个回答

6

index.xml 有一个错别字,已经修复。我刚刚检查过了, nltk.download('all') 运行良好!

请参见:nltk/nltk_data#70


1
NLTK返回的XML存在问题。
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 23, column 143

在23:143我们看到问题,一个缺少了'=':
... unzip="1" unzipped_size"1917" url="https...

NTLK肯定很快就会解决这个问题,但在此之前我不确定最佳的回应是什么。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接