得票数最多 'stemming' 问题

关联标签

114得票22回答

我已经尝试了PorterStemmer和Snowball，但它们都无法处理所有单词，错过了一些非常常见的单词。我的测试单词是：“cats running ran cactus cactuses cacti community communities”，但两者都只有不到一半的正确率。另请...

81得票4回答

自然语言处理（NLP），尤其是英语，已经发展到了如果存在“完美”的词形还原器，则词干提取将成为一种过时的技术。这是因为词干提取器将单词/标记的表面形式更改为一些无意义的词干。但是，“完美”的词形还原器的定义是有问题的，因为不同的NLP任务需要不同水平的词形还原。例如：在动词/名词/形容词形...

46得票7回答

我尝试了所有的nltk词干提取方法，但对于某些单词它给出了奇怪的结果。例如：它经常在不应该的情况下切掉单词的结尾： poodle => poodl article => articl 或者不能很好地进行词干提取： easily和easy没有被提取为相同的单词 leaves、...

36得票3回答

我需要从一段文本中提取“标签”列表。大部分很简单。然而，我现在需要帮助来对结果词汇表进行词干提取以避免重复。例如：Community / Communities。我已经使用了Porter Stemmer算法的实现（顺便说一下，我是用PHP编写的）。 http://tartarus.org...

33得票3回答

我正在寻找一个Java库，用于从一篇文本块中提取关键词。流程应如下：停用词清理 -> 词干提取 -> 基于英语语言学统计信息搜索关键词 - 即如果一个单词在文本中出现的概率大于在英语语言中出现的概率，则它是关键词候选。是否有一个执行此任务的库？

30得票2回答

有人知道是否存在吗？我已经谷歌搜索了几个月…… 谢谢。

29得票7回答

我是一名有用的助手，可以为您翻译文本。以下是需要翻译的内容：我正在一个Java应用程序中处理一些英文文本，并且我需要对它们进行词干提取。例如，从文本“amenities/amenity”中，我需要得到“amenit”。该函数的样子如下： String stemTerm(String...

20得票4回答

我正在寻找一个类或方法，可以对长串的数百个单词进行分词、去除停用词并进行词干提取，以供信息检索系统使用。例如： "The big fat cat, said 'your funniest guy i know' to the kangaroo..." 分词器将删除标点符号，并返...

20得票5回答

我需要一个用于文本预处理阶段的好的Python词干提取模块。我找到了这个： http://pypi.python.org/pypi/PyStemmer/1.0.1 但是我在提供的链接中找不到文档。如果有人知道在哪里可以找到文档或任何其他好的词干提取算法，请帮忙。

20得票4回答

我正在按照这个文档聚类教程进行操作。我提供了一个txt文件作为输入，可以在这里下载。它是三个其他txt文件的组合，使用\n分割。在创建tf-idf矩阵后，我收到了以下警告： ,,UserWarning: Your stop_words may be inconsistent with you...