HTTP错误403禁止访问-下载nltk数据时的错误提示

3

我遇到了访问nltk数据的问题。我尝试过nltk.download(),但是GUI页面出现了HTTP错误403:禁止访问的错误提示。我还尝试从提供的命令行安装

python -m nltk.downloader all

出现以下错误:

C:\Python36\lib\runpy.py:125: RuntimeWarning: 在导入' nltk '包之后,但在执行'nltk.downloader'之前,在sys.modules中找到'nltk.downloader',这可能导致不可预测的行为。warn(RuntimeWarning(msg))[nltk_data] Error loading all: HTTP Error 403: Forbidden。

我还遇到如何下载NLTK数据使用nltk.data.load加载英文pickle失败的问题。

3个回答

3
问题源自nltk下载服务器。如果您查看gui的配置,它指向此链接。请注意不要删除html标签。
https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

如果您在浏览器中访问此链接,您会收到以下消息:

Error 403 Forbidden.

Forbidden.

Guru Mediation:

Details: cache-lcy1125-LCY 1501134862 2002107460

Varnish cache server

所以,我本来要在GitHub上提交一个问题,但是其他人已经在这里提交了:https://github.com/nltk/nltk/issues/1791
在这里提出了一个解决方法:https://github.com/nltk/nltk/issues/1787
根据在GitHub上的讨论:

似乎GitHub已经关闭/阻止访问仓库中的原始内容。

建议的解决方法是手动下载,步骤如下:
PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA

人们还建议使用以下替代指数:
python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt

我手动从https://github.com/nltk/nltk_data/archive/gh-pages.zip下载了数据,并将其解压到一个目录中。基本上,我需要的数据都可以正常工作。谢谢。 - R.A.Munna

0

对我来说,最好的解决方案是:

PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA

链接

替代方案对我不起作用

python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punkt

0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接