19得票2回答
Wordnet Lemmatizer能否加速?

我正在使用NLTK的Wordnet Lemmatizer来分析Brown语料库中的名词是更多地用单数形式还是复数形式。 例如:from nltk.stem.wordnet import WordNetLemmatizer l = WordnetLemmatizer() 我注意到即使是最简单的...

15得票3回答
Spacy词形还原器是如何工作的?

对于词形还原,spacy有一个单词列表:形容词、副词、动词... 还有例外的列表:adverbs_irreg... 对于常规的单词,有一组规则。 我们以单词"wider"为例。 由于它是形容词,因此应该从这个列表中选择词形还原规则: ADJECTIVE_RULES = [ ["e...

14得票3回答
多语言 NLTK 用于词性标注和词形还原。

最近我接触了自然语言处理(NLP),并尝试使用NLTK和TextBlob分析文本。我想开发一个应用程序,分析旅行者的评论,因此我需要处理许多不同语言的文本。我需要进行两个主要操作:POS标注和词形还原。我看到在NLTK中有可能选择正确的语言对句子进行分词,如下所示: tokenizer = ...

11得票1回答
WordNetLemmatizer在没有显式指定词性标记时无法返回正确的词形还原结果 - Python NLTK

我正在对Ted数据集的转录文本进行词形还原。我注意到了一些奇怪的事情:并不是所有的单词都被进行了词形还原。selected -> select 哪个是正确的。 然而,除非我明确输入“v”(动词)属性,否则 involved! -> involve 和 horsing! ->...

11得票1回答
有没有适用于希伯来语的好的词干提取器?

我正在寻找一个好的希伯来语词干提取器,但使用谷歌没有找到什么有用的信息... 在HebMorph网站上写道: 词干和词元原本意思不同,但对于闪族语系来说,它们似乎可以互换使用。 这是否意味着,在自然语言处理(NLP)中,我可以使用词元代替词干?需要注意的是:词干提取器比词形还原程序更简单...

10得票3回答
对意大利语句子进行词形还原以进行频率统计

我想对一些意大利文本进行词形还原,以便对单词进行频率计数和进一步研究词形还原内容的输出。 我更喜欢词形还原而不是词干提取,因为我可以从句子上下文中提取单词的含义(例如区分动词和名词),并获得语言中存在的单词,而不是那些通常没有含义的单词根。 我发现了一个名为pattern的库(pip2 i...

10得票2回答
使用 Apache Lucene 进行词形还原

我正在使用Apache Lucene开发一个文本分析项目。我需要对一些文本进行词形归并(将单词转换为它们的标准形式)。我已经编写了代码进行词干提取(stemming)。使用它,我可以将以下句子转换为: "stem part word never chang even when morphol...

10得票4回答
如何使用SpaCy解决西班牙语词形还原问题?

当尝试对一个包含超过60,000个单词的csv文件进行西班牙语词形还原时,SpaCy没有正确识别某些单词,我知道这个模型并不是100%准确。然而,我没有找到其他解决方案,因为NLTK没有提供西班牙语核心。 我的朋友在西班牙语Stackoverflow上提出了这个问题,但由于这个社区相对较小,...

8得票2回答
非英语单词的词形还原?

我希望应用词形还原来减少单词的屈折形式。我知道英语WordNet提供了这样的功能,但我也想将词形还原应用于荷兰语、法语、西班牙语和意大利语单词。是否有可靠和确认的方法来解决这个问题?谢谢!

8得票1回答
如何给定一个词形和一个标记,反转词形还原过程?

通常,在自然语言处理中,我们希望获得一个标记的词元。例如,我们可以使用Wordnet词形还原将“eaten”映射到“eat”。 在Python中是否有任何工具可以将词元反转为特定形式? 例如,我们将“go”映射到目标形式“eaten”的“gone”。 PS:有人提到我们必须存储这些映射。...