如何通过 `pip install -r requirements.txt` 下载 NLTK corpus ？

Question

如何通过 `pip install -r requirements.txt` 下载 NLTK corpus ？

6

通过命令行，可以下载 NLTK 语料库中的 punkt 和 wordnet：

python3 -m nltk.downloader punkt wordnet

如何通过 pip install -r requirements.txt 下载 NLTK 语料库？

例如，可以通过在 requirements.txt 中添加模型的 URL 地址（例如 https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.0.0/en_core_web_sm-2.0.0.tar.gz#egg=en_core_web_sm==2.0.0），来下载 spacy 模型。

- Franck Dernoncourt

2

Wordnet可以通过独立的https://github.com/nltk/wordnet进行隔离。 - alvas

@alvas 谢谢，好知道！ - Franck Dernoncourt

3个回答

5

无法通过 requirements.txt 文件来实现此操作。但是，如果您需要使用 NLTK 进行 wordnet 和 punkt 的操作，您可以准备两个文件。在其中一个文件中下载 nltk 数据并将其导入到主文件中。例如：

nltkmodules.py：

import nltk

nltk.download('wordnet')
nltk.download('punkt')

main.py:

import nltkmodules

# Rest of Code goes here

在您的requirements.txt中，您只需要包含：

nltk==3.5

- Samrat Sahoo

0

使用命令行下载：

python -m nltk.downloader stopwords punkt wordnet

- gndps

谢谢，请问我怎样可以通过使用 pip install -r requirements.txt 命令来下载 NLTK 语料库？ - Franck Dernoncourt

1

没有直接的方法，因为 requirement.txt 期望 Python 包名称托管在 pypi 存储库上，或者是本地包。但是，您可以创建一个 requirements_nltk.txt 并创建一个自定义的 Python 包（本地或托管），其中包含 nltk 包的实际文件。然后运行 pip install --download=/user/home/nltk/ -r requirements_nltk.txt，并在使用包时使用、配置 nltk 数据目录（https://dev59.com/63A75IYBdhLWcg3wAUB9）。超级 hacky，我知道。 - gndps

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- phd · Accepted Answer

我该如何通过requirements.txt下载NLTK语料库？

简短回答：无法实现。

Spacy 模型的URL指向一个Python包（具有 setup.py文件和其他文件），因此可以通过pip进行下载和安装。NLTK数据没有这样的可以通过pip安装的包。 nltk.downloader 以自己的格式下载数据。