114得票22回答
我该如何进行词干提取或词形归并?

我已经尝试了PorterStemmer和Snowball,但它们都无法处理所有单词,错过了一些非常常见的单词。 我的测试单词是:“cats running ran cactus cactuses cacti community communities”,但两者都只有不到一半的正确率。 另请...

81得票4回答
词干提取器与词形还原器

自然语言处理(NLP),尤其是英语,已经发展到了如果存在“完美”的词形还原器,则词干提取将成为一种过时的技术。这是因为词干提取器将单词/标记的表面形式更改为一些无意义的词干。 但是,“完美”的词形还原器的定义是有问题的,因为不同的NLP任务需要不同水平的词形还原。例如:在动词/名词/形容词形...

46得票7回答
Python中最好的词干提取方法是什么?

我尝试了所有的nltk词干提取方法,但对于某些单词它给出了奇怪的结果。 例如: 它经常在不应该的情况下切掉单词的结尾: poodle => poodl article => articl 或者不能很好地进行词干提取: easily和easy没有被提取为相同的单词 leaves、...

36得票3回答
产生真实单词的词干提取算法

我需要从一段文本中提取“标签”列表。大部分很简单。然而,我现在需要帮助来对结果词汇表进行词干提取以避免重复。例如:Community / Communities。 我已经使用了Porter Stemmer算法的实现(顺便说一下,我是用PHP编写的)。 http://tartarus.org...

33得票3回答
从输入文本中提取关键词的Java库

我正在寻找一个Java库,用于从一篇文本块中提取关键词。 流程应如下: 停用词清理 -> 词干提取 -> 基于英语语言学统计信息搜索关键词 - 即如果一个单词在文本中出现的概率大于在英语语言中出现的概率,则它是关键词候选。 是否有一个执行此任务的库?

30得票2回答
卢森堡希伯来语分析器

有人知道是否存在吗? 我已经谷歌搜索了几个月…… 谢谢。

29得票7回答
使用Lucene对英语单词进行词干提取

我是一名有用的助手,可以为您翻译文本。以下是需要翻译的内容: 我正在一个Java应用程序中处理一些英文文本,并且我需要对它们进行词干提取。 例如,从文本“amenities/amenity”中,我需要得到“amenit”。 该函数的样子如下: String stemTerm(String...

20得票4回答
Java中的分词器、停用词去除和词干提取

我正在寻找一个类或方法,可以对长串的数百个单词进行分词、去除停用词并进行词干提取,以供信息检索系统使用。 例如: "The big fat cat, said 'your funniest guy i know' to the kangaroo..." 分词器将删除标点符号,并返...

20得票5回答
需要一个用于文本文档分词的Python模块。

我需要一个用于文本预处理阶段的好的Python词干提取模块。 我找到了这个: http://pypi.python.org/pypi/PyStemmer/1.0.1 但是我在提供的链接中找不到文档。 如果有人知道在哪里可以找到文档或任何其他好的词干提取算法,请帮忙。

20得票4回答
用户警告:您的停用词可能与您的预处理不一致。

我正在按照这个文档聚类教程进行操作。我提供了一个txt文件作为输入,可以在这里下载。它是三个其他txt文件的组合,使用\n分割。在创建tf-idf矩阵后,我收到了以下警告: ,,UserWarning: Your stop_words may be inconsistent with you...