最新 'lemmatization' 问题

关联标签

30得票6回答

如何在R中进行词形还原？

这个问题可能是 Lemmatizer in R or python (am, are, is -> be?) 的重复，但我仍然再次添加它，因为之前的一个问题被关闭了，理由是太广泛了，且唯一的答案并不高效（因为它需要访问一个外部网站来完成这个过程，而我的语料库非常大，所以速度太慢）。因此，这个问...

rnlplemmatization

7得票1回答

Wordpiece分词与传统的词形归并有何不同？

我正在研究NLP预处理。我想要实现上下文相关的词嵌入，以区分单词的含义，并考虑使用BERT的输出来实现。我注意到BERT使用WordPiece标记化（例如，“playing” ->“play”+“##ing”）。目前，我使用标准分词器对我的文本进行预处理，该分词器在空格/某些标点符号...

nlptokenizelemmatization

7得票2回答

分析文本（词形归并，编辑距离）

我需要分析文本中是否存在禁用词。假设黑名单中有一个词：“禁止”。该词有许多形式。在文本中，该词可能是“forbidding”、“forbidden”或“forbad”等。为了将词带回初始形式，我使用了词形还原过程。你有什么建议吗？那拼写错误怎么办呢？例如：“F0rb1d”。我认为可以使用D...

c#nlpsimilaritylemmatization

77得票8回答

Python中的WordNet词形还原和词性标注

我想在Python中使用WordNet词形还原器，了解到默认的词性标记是NOUN，并且除非将词性标记明确指定为VERB，否则它不会输出动词的正确词形还原结果。我的问题是，如何最好地准确执行上述词形还原操作？我使用了nltk.pos_tag进行了词性标注，但我不知道如何将树库词性标记集成...

pythonnltkwordnetlemmatization

114得票22回答

我该如何进行词干提取或词形归并？

我已经尝试了PorterStemmer和Snowball，但它们都无法处理所有单词，错过了一些非常常见的单词。我的测试单词是：“cats running ran cactus cactuses cacti community communities”，但两者都只有不到一半的正确率。另请...

nlpstemminglemmatization

204得票14回答

Lemmatization和Stemming有什么区别？

我该何时使用它们？此外...NLTK词形还原是否依赖于词性？如果依赖于词性，那么准确度不是更高吗？

nlpnltklemmatization

23得票13回答

如何将复数单词变为单数？

我正在为ORM准备一些表名，并希望将复数表名转换为单个实体名称。我的唯一问题是找到一个可靠的算法来完成这个任务。以下是我目前正在做的：如果一个单词以-ies结尾，我将结尾替换为-y 如果一个单词以-es结尾，我将此结尾删除。然而，这并不总是奏效 - 例如，它会将Types 替换为 Typ...

algorithmnlplemmatization

7得票1回答

使用Wordnet词形还原器获取词根

我需要找到一个通用的根词，以匹配关键字提取器中所有相关单词。如何使用Python nltk词形还原器将单词转换为相同的词根？例如： - generalized, generalization -> general - optimal, optimized -> optimize（也许）...

pythonnlpnltkwordnetlemmatization

31得票2回答

在训练之前对语料进行词向量化和词形还原处理的word2vec

Word2vec似乎主要是在原始语料库数据上进行训练。但是，对于许多语义相似性任务而言，词形归并是一种标准的预处理方法。我想知道是否有人在训练word2vec之前对语料库进行了词形归并处理，以及这是否是一个有用的预处理步骤。

nlpword2vecgensimlemmatization

7得票1回答

Python中更快的词形还原技术

我正在尝试找到一种更快的方式，使用NLTK Word Net词形还原器对列表（名为text）中的单词进行词形还原。显然，这是我整个程序中最耗时的步骤（使用cProfiler查找相同结果）。以下是我尝试优化速度的代码片段 - def lemmed(text): l = len(te...

pythonperformancepython-3.xnltklemmatization