7得票1回答
为什么NLTK词形归并即使verb.exc添加了正确值,输出仍然错误?

当我打开verb.exc时,我可以看到: saw see 尽管我在代码中使用了词形还原 >>>print lmtzr.lemmatize('saw', 'v') saw 这怎么会发生?我在修改WordNet时有误解吗?

7得票1回答
Python中更快的词形还原技术

我正在尝试找到一种更快的方式,使用NLTK Word Net词形还原器对列表(名为text)中的单词进行词形还原。显然,这是我整个程序中最耗时的步骤(使用cProfiler查找相同结果)。 以下是我尝试优化速度的代码片段 - def lemmed(text): l = len(te...

7得票1回答
使用Wordnet词形还原器获取词根

我需要找到一个通用的根词,以匹配关键字提取器中所有相关单词。 如何使用Python nltk词形还原器将单词转换为相同的词根? 例如: - generalized, generalization -> general - optimal, optimized -> optimize(也许)...

7得票2回答
分析文本(词形归并,编辑距离)

我需要分析文本中是否存在禁用词。假设黑名单中有一个词:“禁止”。该词有许多形式。在文本中,该词可能是“forbidding”、“forbidden”或“forbad”等。为了将词带回初始形式,我使用了词形还原过程。你有什么建议吗? 那拼写错误怎么办呢?例如:“F0rb1d”。我认为可以使用D...

7得票1回答
Solr/Lucene查询中的词形还原及其上下文

我已经成功为Lucene实现了一个捷克语词形还原器。我正在使用Solr进行测试,它在索引时间表现良好。但是,当用于查询时,它的效果并不好,因为查询解析器没有向词形还原器提供任何上下文(前后单词)。例如,短语“pila vodu”在索引时间和查询时间的分析方式不同。它使用了多义词“pila”,这...

7得票1回答
在NLTK中对非结构化文本进行词干提取

我尝试过使用正则表达式词干提取器,但是我得到了数百个不相关的标记。我只对“play”这个词干感兴趣。以下是我正在使用的代码: import nltk from nltk.book import * f = open('tupac_original.txt', 'rU') text = f.r...

7得票1回答
寻找包含英文单词及其不同形式的数据库或文本文件

我正在进行一个项目,需要获取给定单词的词根(即词干处理)。众所周知,不使用词典的词干算法并不准确。我尝试了WordNet,但它不适合我的项目。我发现了phpmorphy项目,但它不包括Java API。 目前我正在寻找一个包含英语单词及其不同形式的数据库或文本文件,例如: run runn...

7得票1回答
Wordpiece分词与传统的词形归并有何不同?

我正在研究NLP预处理。我想要实现上下文相关的词嵌入,以区分单词的含义,并考虑使用BERT的输出来实现。我注意到BERT使用WordPiece标记化(例如,“playing” ->“play”+“##ing”)。 目前,我使用标准分词器对我的文本进行预处理,该分词器在空格/某些标点符号...