得票数最多 'lemmatization' 问题

标签列表

关联标签

204得票14回答

Lemmatization和Stemming有什么区别？

我该何时使用它们？此外...NLTK词形还原是否依赖于词性？如果依赖于词性，那么准确度不是更高吗？

nlpnltklemmatization

114得票22回答

我该如何进行词干提取或词形归并？

我已经尝试了PorterStemmer和Snowball，但它们都无法处理所有单词，错过了一些非常常见的单词。我的测试单词是：“cats running ran cactus cactuses cacti community communities”，但两者都只有不到一半的正确率。另请...

nlpstemminglemmatization

81得票4回答

词干提取器与词形还原器

自然语言处理（NLP），尤其是英语，已经发展到了如果存在“完美”的词形还原器，则词干提取将成为一种过时的技术。这是因为词干提取器将单词/标记的表面形式更改为一些无意义的词干。但是，“完美”的词形还原器的定义是有问题的，因为不同的NLP任务需要不同水平的词形还原。例如：在动词/名词/形容词形...

nlpwordnetstemmingtext-analysislemmatization

77得票8回答

Python中的WordNet词形还原和词性标注

我想在Python中使用WordNet词形还原器，了解到默认的词性标记是NOUN，并且除非将词性标记明确指定为VERB，否则它不会输出动词的正确词形还原结果。我的问题是，如何最好地准确执行上述词形还原操作？我使用了nltk.pos_tag进行了词性标注，但我不知道如何将树库词性标记集成...

pythonnltkwordnetlemmatization

39得票6回答

如何使用spacy的词形还原器将一个单词转换为基本形式

我是spacy的新手，想使用它的词形还原功能，但我不知道如何使用它，比如将我输入的单词字符串转换成基本形式的字符串。示例: 'words'=> 'word' 'did' => 'do' 谢谢。

pythonnltkspacylemmatization

31得票2回答

在训练之前对语料进行词向量化和词形还原处理的word2vec

Word2vec似乎主要是在原始语料库数据上进行训练。但是，对于许多语义相似性任务而言，词形归并是一种标准的预处理方法。我想知道是否有人在训练word2vec之前对语料库进行了词形归并处理，以及这是否是一个有用的预处理步骤。

nlpword2vecgensimlemmatization

30得票6回答

如何在R中进行词形还原？

这个问题可能是 Lemmatizer in R or python (am, are, is -> be?) 的重复，但我仍然再次添加它，因为之前的一个问题被关闭了，理由是太广泛了，且唯一的答案并不高效（因为它需要访问一个外部网站来完成这个过程，而我的语料库非常大，所以速度太慢）。因此，这个问...

rnlplemmatization

30得票5回答

将法语文本进行词形还原

我有一些用法语写的文本需要进行处理。为此，我需要：首先，将文本分词成单词然后对这些单词进行词形还原，以避免处理相同的词根多次出现就我所知，NLTK 中的 WordNet 词形还原器只适用于英语。我希望能找到一个可以在输入“voudrais”时返回“vouloir”等结果的工具。同...

pythonnltklemmatization

23得票13回答

如何将复数单词变为单数？

我正在为ORM准备一些表名，并希望将复数表名转换为单个实体名称。我的唯一问题是找到一个可靠的算法来完成这个任务。以下是我目前正在做的：如果一个单词以-ies结尾，我将结尾替换为-y 如果一个单词以-es结尾，我将此结尾删除。然而，这并不总是奏效 - 例如，它会将Types 替换为 Typ...

algorithmnlplemmatization

19得票2回答

Sklearn：在CountVectorizer中添加词形还原器

我按照这个Sklearn页面的说明，向我的计数向量化器添加了词形还原功能。 from nltk import word_tokenize from nltk.stem import WordNetLemmatizer class LemmaTokenizer(objec...

pythonscikit-learnlemmatizationcountvectorizer