204得票14回答
Lemmatization和Stemming有什么区别?

我该何时使用它们? 此外...NLTK词形还原是否依赖于词性?如果依赖于词性,那么准确度不是更高吗?

114得票22回答
我该如何进行词干提取或词形归并?

我已经尝试了PorterStemmer和Snowball,但它们都无法处理所有单词,错过了一些非常常见的单词。 我的测试单词是:“cats running ran cactus cactuses cacti community communities”,但两者都只有不到一半的正确率。 另请...

81得票4回答
词干提取器与词形还原器

自然语言处理(NLP),尤其是英语,已经发展到了如果存在“完美”的词形还原器,则词干提取将成为一种过时的技术。这是因为词干提取器将单词/标记的表面形式更改为一些无意义的词干。 但是,“完美”的词形还原器的定义是有问题的,因为不同的NLP任务需要不同水平的词形还原。例如:在动词/名词/形容词形...

77得票8回答
Python中的WordNet词形还原和词性标注

我想在Python中使用WordNet词形还原器,了解到默认的词性标记是NOUN,并且除非将词性标记明确指定为VERB,否则它不会输出动词的正确词形还原结果。 我的问题是,如何最好地准确执行上述词形还原操作? 我使用了nltk.pos_tag进行了词性标注,但我不知道如何将树库词性标记集成...

39得票6回答
如何使用spacy的词形还原器将一个单词转换为基本形式

我是spacy的新手,想使用它的词形还原功能,但我不知道如何使用它,比如将我输入的单词字符串转换成基本形式的字符串。 示例: 'words'=> 'word' 'did' => 'do' 谢谢。

31得票2回答
在训练之前对语料进行词向量化和词形还原处理的word2vec

Word2vec似乎主要是在原始语料库数据上进行训练。但是,对于许多语义相似性任务而言,词形归并是一种标准的预处理方法。我想知道是否有人在训练word2vec之前对语料库进行了词形归并处理,以及这是否是一个有用的预处理步骤。

30得票6回答
如何在R中进行词形还原?

这个问题可能是 Lemmatizer in R or python (am, are, is -> be?) 的重复,但我仍然再次添加它,因为之前的一个问题被关闭了,理由是太广泛了,且唯一的答案并不高效(因为它需要访问一个外部网站来完成这个过程,而我的语料库非常大,所以速度太慢)。因此,这个问...

30得票5回答
将法语文本进行词形还原

我有一些用法语写的文本需要进行处理。为此,我需要: 首先,将文本分词成单词 然后对这些单词进行词形还原,以避免处理相同的词根多次出现 就我所知,NLTK 中的 WordNet 词形还原器只适用于英语。我希望能找到一个可以在输入“voudrais”时返回“vouloir”等结果的工具。同...

23得票13回答
如何将复数单词变为单数?

我正在为ORM准备一些表名,并希望将复数表名转换为单个实体名称。我的唯一问题是找到一个可靠的算法来完成这个任务。以下是我目前正在做的: 如果一个单词以-ies结尾,我将结尾替换为-y 如果一个单词以-es结尾,我将此结尾删除。然而,这并不总是奏效 - 例如,它会将Types 替换为 Typ...

19得票2回答
Sklearn:在CountVectorizer中添加词形还原器

我按照这个Sklearn页面的说明,向我的计数向量化器添加了词形还原功能。 from nltk import word_tokenize from nltk.stem import WordNetLemmatizer class LemmaTokenizer(objec...