这个问题可能是 Lemmatizer in R or python (am, are, is -> be?) 的重复,但我仍然再次添加它,因为之前的一个问题被关闭了,理由是太广泛了,且唯一的答案并不高效(因为它需要访问一个外部网站来完成这个过程,而我的语料库非常大,所以速度太慢)。因此,这个问...
我正在研究NLP预处理。我想要实现上下文相关的词嵌入,以区分单词的含义,并考虑使用BERT的输出来实现。我注意到BERT使用WordPiece标记化(例如,“playing” ->“play”+“##ing”)。 目前,我使用标准分词器对我的文本进行预处理,该分词器在空格/某些标点符号...
我需要分析文本中是否存在禁用词。假设黑名单中有一个词:“禁止”。该词有许多形式。在文本中,该词可能是“forbidding”、“forbidden”或“forbad”等。为了将词带回初始形式,我使用了词形还原过程。你有什么建议吗? 那拼写错误怎么办呢?例如:“F0rb1d”。我认为可以使用D...
我想在Python中使用WordNet词形还原器,了解到默认的词性标记是NOUN,并且除非将词性标记明确指定为VERB,否则它不会输出动词的正确词形还原结果。 我的问题是,如何最好地准确执行上述词形还原操作? 我使用了nltk.pos_tag进行了词性标注,但我不知道如何将树库词性标记集成...
我已经尝试了PorterStemmer和Snowball,但它们都无法处理所有单词,错过了一些非常常见的单词。 我的测试单词是:“cats running ran cactus cactuses cacti community communities”,但两者都只有不到一半的正确率。 另请...
我正在为ORM准备一些表名,并希望将复数表名转换为单个实体名称。我的唯一问题是找到一个可靠的算法来完成这个任务。以下是我目前正在做的: 如果一个单词以-ies结尾,我将结尾替换为-y 如果一个单词以-es结尾,我将此结尾删除。然而,这并不总是奏效 - 例如,它会将Types 替换为 Typ...
我需要找到一个通用的根词,以匹配关键字提取器中所有相关单词。 如何使用Python nltk词形还原器将单词转换为相同的词根? 例如: - generalized, generalization -> general - optimal, optimized -> optimize(也许)...
Word2vec似乎主要是在原始语料库数据上进行训练。但是,对于许多语义相似性任务而言,词形归并是一种标准的预处理方法。我想知道是否有人在训练word2vec之前对语料库进行了词形归并处理,以及这是否是一个有用的预处理步骤。
我正在尝试找到一种更快的方式,使用NLTK Word Net词形还原器对列表(名为text)中的单词进行词形还原。显然,这是我整个程序中最耗时的步骤(使用cProfiler查找相同结果)。 以下是我尝试优化速度的代码片段 - def lemmed(text): l = len(te...