得票数最多 'lemmatization' 问题 - 第2页

关联标签

19得票2回答

我正在使用NLTK的Wordnet Lemmatizer来分析Brown语料库中的名词是更多地用单数形式还是复数形式。例如：from nltk.stem.wordnet import WordNetLemmatizer l = WordnetLemmatizer() 我注意到即使是最简单的...

15得票3回答

对于词形还原，spacy有一个单词列表：形容词、副词、动词... 还有例外的列表：adverbs_irreg... 对于常规的单词，有一组规则。我们以单词"wider"为例。由于它是形容词，因此应该从这个列表中选择词形还原规则： ADJECTIVE_RULES = [ ["e...

14得票3回答

最近我接触了自然语言处理(NLP)，并尝试使用NLTK和TextBlob分析文本。我想开发一个应用程序，分析旅行者的评论，因此我需要处理许多不同语言的文本。我需要进行两个主要操作：POS标注和词形还原。我看到在NLTK中有可能选择正确的语言对句子进行分词，如下所示： tokenizer = ...

11得票1回答

我正在对Ted数据集的转录文本进行词形还原。我注意到了一些奇怪的事情：并不是所有的单词都被进行了词形还原。selected -> select 哪个是正确的。然而，除非我明确输入“v”（动词）属性，否则 involved! -> involve 和 horsing! ->...

11得票1回答

我正在寻找一个好的希伯来语词干提取器，但使用谷歌没有找到什么有用的信息... 在HebMorph网站上写道: 词干和词元原本意思不同，但对于闪族语系来说，它们似乎可以互换使用。这是否意味着，在自然语言处理（NLP）中，我可以使用词元代替词干？需要注意的是：词干提取器比词形还原程序更简单...

10得票3回答

我想对一些意大利文本进行词形还原，以便对单词进行频率计数和进一步研究词形还原内容的输出。我更喜欢词形还原而不是词干提取，因为我可以从句子上下文中提取单词的含义（例如区分动词和名词），并获得语言中存在的单词，而不是那些通常没有含义的单词根。我发现了一个名为pattern的库（pip2 i...

10得票2回答

我正在使用Apache Lucene开发一个文本分析项目。我需要对一些文本进行词形归并(将单词转换为它们的标准形式)。我已经编写了代码进行词干提取(stemming)。使用它，我可以将以下句子转换为： "stem part word never chang even when morphol...

10得票4回答

当尝试对一个包含超过60,000个单词的csv文件进行西班牙语词形还原时，SpaCy没有正确识别某些单词，我知道这个模型并不是100%准确。然而，我没有找到其他解决方案，因为NLTK没有提供西班牙语核心。我的朋友在西班牙语Stackoverflow上提出了这个问题，但由于这个社区相对较小，...

8得票2回答

我希望应用词形还原来减少单词的屈折形式。我知道英语WordNet提供了这样的功能，但我也想将词形还原应用于荷兰语、法语、西班牙语和意大利语单词。是否有可靠和确认的方法来解决这个问题？谢谢！

8得票1回答

通常，在自然语言处理中，我们希望获得一个标记的词元。例如，我们可以使用Wordnet词形还原将“eaten”映射到“eat”。在Python中是否有任何工具可以将词元反转为特定形式？例如，我们将“go”映射到目标形式“eaten”的“gone”。 PS：有人提到我们必须存储这些映射。...