30得票6回答
如何在R中进行词形还原?

这个问题可能是 Lemmatizer in R or python (am, are, is -> be?) 的重复,但我仍然再次添加它,因为之前的一个问题被关闭了,理由是太广泛了,且唯一的答案并不高效(因为它需要访问一个外部网站来完成这个过程,而我的语料库非常大,所以速度太慢)。因此,这个问...

7得票1回答
Wordpiece分词与传统的词形归并有何不同?

我正在研究NLP预处理。我想要实现上下文相关的词嵌入,以区分单词的含义,并考虑使用BERT的输出来实现。我注意到BERT使用WordPiece标记化(例如,“playing” ->“play”+“##ing”)。 目前,我使用标准分词器对我的文本进行预处理,该分词器在空格/某些标点符号...

7得票2回答
分析文本(词形归并,编辑距离)

我需要分析文本中是否存在禁用词。假设黑名单中有一个词:“禁止”。该词有许多形式。在文本中,该词可能是“forbidding”、“forbidden”或“forbad”等。为了将词带回初始形式,我使用了词形还原过程。你有什么建议吗? 那拼写错误怎么办呢?例如:“F0rb1d”。我认为可以使用D...

77得票8回答
Python中的WordNet词形还原和词性标注

我想在Python中使用WordNet词形还原器,了解到默认的词性标记是NOUN,并且除非将词性标记明确指定为VERB,否则它不会输出动词的正确词形还原结果。 我的问题是,如何最好地准确执行上述词形还原操作? 我使用了nltk.pos_tag进行了词性标注,但我不知道如何将树库词性标记集成...

114得票22回答
我该如何进行词干提取或词形归并?

我已经尝试了PorterStemmer和Snowball,但它们都无法处理所有单词,错过了一些非常常见的单词。 我的测试单词是:“cats running ran cactus cactuses cacti community communities”,但两者都只有不到一半的正确率。 另请...

204得票14回答
Lemmatization和Stemming有什么区别?

我该何时使用它们? 此外...NLTK词形还原是否依赖于词性?如果依赖于词性,那么准确度不是更高吗?

23得票13回答
如何将复数单词变为单数?

我正在为ORM准备一些表名,并希望将复数表名转换为单个实体名称。我的唯一问题是找到一个可靠的算法来完成这个任务。以下是我目前正在做的: 如果一个单词以-ies结尾,我将结尾替换为-y 如果一个单词以-es结尾,我将此结尾删除。然而,这并不总是奏效 - 例如,它会将Types 替换为 Typ...

7得票1回答
使用Wordnet词形还原器获取词根

我需要找到一个通用的根词,以匹配关键字提取器中所有相关单词。 如何使用Python nltk词形还原器将单词转换为相同的词根? 例如: - generalized, generalization -> general - optimal, optimized -> optimize(也许)...

31得票2回答
在训练之前对语料进行词向量化和词形还原处理的word2vec

Word2vec似乎主要是在原始语料库数据上进行训练。但是,对于许多语义相似性任务而言,词形归并是一种标准的预处理方法。我想知道是否有人在训练word2vec之前对语料库进行了词形归并处理,以及这是否是一个有用的预处理步骤。

7得票1回答
Python中更快的词形还原技术

我正在尝试找到一种更快的方式,使用NLTK Word Net词形还原器对列表(名为text)中的单词进行词形还原。显然,这是我整个程序中最耗时的步骤(使用cProfiler查找相同结果)。 以下是我尝试优化速度的代码片段 - def lemmed(text): l = len(te...