15得票2回答
从打包的tar.gz文件中直接加载spacy模型

是否有可能直接从打包的spacy模型文件(即foo.tar.gz)中加载模型,而不必事先安装它?我想像的是: 可以直接从tar文件中加载spacy模型吗(例如foo.tar.gz),而不需要预先安装它?我会想到类似这样的东西:import spacy nlp = spacy.load(/...

15得票3回答
在SpaCy中用标签替换实体

有没有一种方式可以使用SpaCy将SpaCy NER检测到的实体替换为其标签? 例如: 我正在吃一个苹果,同时玩我的Apple MacBook。 我已经使用SpaCy训练了NER模型以检测“水果”实体,并且该模型成功地将第一个“apple”检测为“FRUITS”,但未检测第二个“Appl...

15得票3回答
在spaCy的预训练模型中列出最相似的单词列表

使用Gensim,我可以在训练了自己的模型后,使用model.wv.most_similar('cat', topn=5)来获取与向量空间中cat最接近的5个单词的列表。例如:from gensim.models import Word2Vec model = Word2Vec.load('m...

15得票3回答
Spacy词形还原器是如何工作的?

对于词形还原,spacy有一个单词列表:形容词、副词、动词... 还有例外的列表:adverbs_irreg... 对于常规的单词,有一组规则。 我们以单词"wider"为例。 由于它是形容词,因此应该从这个列表中选择词形还原规则: ADJECTIVE_RULES = [ ["e...

14得票1回答
使用SpaCy中的PhraseMatcher查找多个匹配类型

SpaCy的文档和示例显示PhraseMatcher类有助于在文档中匹配令牌序列。必须提供将被匹配的序列词汇表。 在我的应用程序中,我有包含标记和短语集合的文档。不同类型的实体存在。数据是自然语言远程(文档是一组带有半随机排序的关键字)。我正在尝试找到多种类型的匹配项。 例如:yellow b...

14得票1回答
使用spaCy进行词性标注

我正在尝试使用Python中的spaCy模块进行词性标注。 以下是我用于该过程的代码:from spacy.en import English, LOCAL_DATA_DIR import spacy.en import os data_dir = os.environ.get('SPAC...

14得票2回答
如何使用spacy_langdetect包中的LanguageDetector()函数?

我正在尝试使用spacy_langdetect包,而我能找到的唯一示例代码是(https://spacy.io/universe/project/spacy-langdetect): import spacy from spacy_langdetect import LanguageDete...

14得票1回答
如何使用spaCy创建一个新实体并仅从关键词列表中学习

我正尝试使用spaCy创建一个新的实体分类'Species',其中包含一些物种名称,例如可以在这里找到示例。 我在这个spaCy教程(Github代码在这里)中找到了一个训练新实体类型的教程。然而,问题是,我不想为每个物种名称手动创建一个句子,因为这将非常耗时。 我创建了以下的训练数据,它看起...

14得票1回答
spaCy中的Token扩展与匹配器、短语匹配器和实体规则器的区别

我正在尝试找出提取实体的最佳方法(快速),例如月份。我已经使用spaCy想出了五种不同的方法。 初始设置 对于每个解决方案,我都从一个初始设置开始。 import spacy.lang.en nlp = spacy.lang.en.English() text = 'I am t...

14得票1回答
如何在spaCy中识别缩写和首字母缩略词并将其展开?

我有一个大约50,000个条目的术语列表,其中一些关键短语/术语有相应的首字母缩写/缩写词。我需要快速找到缩写或扩展缩写(即MS->Microsoft),然后用完整的扩展缩写+缩写(即Microsoft->Microsoft(MS)或MS->Microsoft(MS))替换它们。 我对spa...