这不是使用nltk从文本文件中提取所有名词的重复内容。
在链接的问题中,一段文本被处理。已接受的答案提出了一个标记器。我知道标记文本的不同选项(nlkt、textblob、spacy),但我不能使用它们,因为我的数据不包含句子。我只有一个独立单词的列表:
would
research
part
technologies
size
articles
analyzes
line
nltk
有很多语料库。我找到了一个名为verbnet
的动词全面列表。但是到目前为止,我没有看到与名词类似的东西。是否有像字典一样的东西,我可以查找一个单词是名词、动词、形容词等?
这可能可以通过一些在线服务来完成。例如,Microsoft翻译在其响应中返回了大量信息:https://learn.microsoft.com/en-us/azure/cognitive-services/translator/reference/v3-0-dictionary-lookup?tabs=curl 但这是付费服务。我更喜欢使用Python包。
关于单词的歧义性:理想情况下,我希望有一个可以告诉我一个单词所有功能的字典。例如,“fish”既是名词又是动词。“eat”只是动词,“dog”只是名词。我知道这不是一门精确的科学。一个可行的解决方案将简单地删除所有不能是名词的单词。
Google
可以作为动词吗?Google
是名词吗? 英语中的虚词可能有固定的词性,但非虚词在大多数情况下没有上下文是模糊的。 - alvas