如何下载NLTK数据?

69

更新的答案:NLTK在2.7上可以很好地运行。 我之前使用的是3.2版本。 我卸载了3.2并安装了2.7版本。 现在它可以工作了!

我已经安装了NLTK并尝试下载NLTK数据。 我所做的就是按照这个网站上的说明进行操作:http://www.nltk.org/data.html

我下载了NLTK,安装了它,然后尝试运行以下代码:

>>> import nltk
>>> nltk.download()

我收到了以下错误消息:

Traceback (most recent call last):
  File "<pyshell#6>", line 1, in <module>
    nltk.download()
AttributeError: 'module' object has no attribute 'download'
 Directory of C:\Python32\Lib\site-packages

我尝试了 nltk.download()nltk.downloader() 两种方法,但都出现错误信息。

然后我使用了 help(nltk) 命令来获取包的信息,它显示了以下内容:

NAME
    nltk

PACKAGE CONTENTS
    align
    app (package)
    book
    ccg (package)
    chat (package)
    chunk (package)
    classify (package)
    cluster (package)
    collocations
    corpus (package)
    data
    decorators
    downloader
    draw (package)
    examples (package)
    featstruct
    grammar
    help
    inference (package)
    internals
    lazyimport
    metrics (package)
    misc (package)
    model (package)
    parse (package)
    probability
    sem (package)
    sourcedstring
    stem (package)
    tag (package)
    test (package)
    text
    tokenize (package)
    toolbox
    tree
    treetransforms
    util
    yamltags

FILE
    c:\python32\lib\site-packages\nltk

我确实在那里看到了Downloader,但不确定为什么它不起作用。使用的是Python 3.2.2,操作系统是Windows Vista。


1
简短说明:我不知道问题出在哪里,但你所做的是正确的,应该会给你一个GUI来选择要下载的内容(也就是说,你没有做错什么,但确实有些问题存在)。 - Miquel
你是从哪里安装NLTK的?我强烈建议你通过像pip这样的软件包管理器来安装它,以便为你处理所有的依赖关系。 - Michael Aquilina
我不确定该怎么做。你是说我应该先安装pip,然后使用它来安装NLTK吗?我找到了这个资源:链接 我是否只需将get-pip.py链接中的内容复制粘贴到一个Python文件中,然后将其保存到c:/python32中?我真的很希望能得到更多详细信息。谢谢。 - Q-ximi
只需按照网站上的命令安装pip(您需要使用命令提示符窗口来执行此操作)。 安装完成后,使用命令提示符窗口并键入“pip install nltk”。 完成后,请尝试再次运行nltk命令以查看是否已解决您的问题。 - Michael Aquilina
2
使用终端进行安装:python3 -m nltk.downloader all - gl3yn
显示剩余3条评论
15个回答

2
在安装Python时,您应将Python添加到路径中...安装后...打开cmd提示符并输入以下命令 - pip install nltk 然后转到IDLE并打开新文件..将其保存为file.py ..然后打开 file.py,键入以下内容:import nltk
nltk.download()

2
尝试从http://www.nltk.org/nltk_data/下载zip文件,然后解压缩并保存到您的Python文件夹中,例如C:\ProgramData\Anaconda3\nltk_data。请注意保留HTML标签。

这是我不得不使用的方法(经过修改)适用于未连接到互联网的Linux服务器。我在创建的目录下解压缩它,/usr/share/nltk_data/tokenizers/。 - Mike Maxwell

1
如果您已经保存了一个文件名为nltk.py,然后将其重命名为my_nltk_script.py。检查是否仍然存在nltk.py文件。如果是,则删除它们并运行my_nltk.scripts.py文件,它应该可以工作!

0

就像这样做

import nltk
nltk.download()

然后会弹出一个窗口询问要下载什么,选择“全部”。由于文件大小,可能需要一些时间,但最终我们会得到它。

如果您正在使用Google Colab,可以使用

nltk.download(download_dir='/content/nltkdata')

运行后,您将被要求从列表中进行选择

NLTK Downloader
----------------------------------------------------------------- 
----------
d) Download   l) List    u) Update   c) Config   h) Help   q) 
Quit
----------------------------------------------------------------- 
----------
Downloader> d

在这里,您需要输入d,因为您想要下载。 之后,您将被要求输入您想要下载的标识符。您可以使用l命令查看可用的标识符列表,或者如果您想要全部下载,只需在输入框中输入'all'。 然后,您将看到类似于-

Downloading collection 'all'
       | 
       | Downloading package abc to /content/nltkdata...
       |   Unzipping corpora/abc.zip.
       | Downloading package alpino to /content/nltkdata...
       |   Unzipping corpora/alpino.zip.
       | Downloading package biocreative_ppi to /content/nltkdata...
       |   Unzipping corpora/biocreative_ppi.zip.
       | Downloading package brown to /content/nltkdata...
       |   Unzipping corpora/brown.zip.
       | Downloading package brown_tei to /content/nltkdata...
       |   Unzipping corpora/brown_tei.zip.
       | Downloading package cess_cat to /content/nltkdata...
       |   Unzipping corpora/cess_cat.zip.
.
.
. 
 |   Unzipping models/wmt15_eval.zip.
       | Downloading package mwa_ppdb to /content/nltkdata...
       |   Unzipping misc/mwa_ppdb.zip.
       | 
     Done downloading collection all

---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> q
True

最后你可以输入 q 退出。


-4

你可以尝试以下方法:

>> $ import nltk
>> $ nltk.download_shell()
>> $ d
>> $ *name of the package*

祝你自然语言处理愉快。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接