上下文如下:我已经有了聚类的短语,这些短语是通过对互联网搜索查询应用kmeans并使用搜索引擎结果中的常见url作为距离(如果我简化��的话,就是url的共现而不是单词)得到的。
我希望能够使用语义自动标记这些聚类,换句话说,我想提取围绕一组短语的主要概念。例如 - 对于我的例子主题很抱歉 - 如果我有以下一堆查询:['我丈夫攻击了我','他被警察逮捕了','审判仍在进行中' ,'我丈夫因骚扰我而可能入狱?','免费律师'] 我的研究涉及家庭暴力,但显然这个聚类集中在问题的法律方面,因此标签可以是“法律”等。
我对NPL很陌生,但我必须明确,我不想使用POS标记提取单词(或者至少这不是预���的最终结果,但可能是必要的初步步骤之一)。
我读过Wordnet有关意义消歧的内容,我认为这可能是一个好方法,但我不想计算两个查询之间的相似性(因为聚类是输入),也不想通过整个一堆单词所提供的上下文来获得一个选定单词的定义(在这种情况下选择哪个单词?)。我想使用整个一堆单词提供上下文(可能使用synset或使用wordnet的xml结构进行分类),然后用一两个单词总结上下文。
有什么想法吗?我可以使用R或Python,我读过nltk但是我找不到在我的上下文中使用它的方法。
我希望能够使用语义自动标记这些聚类,换句话说,我想提取围绕一组短语的主要概念。例如 - 对于我的例子主题很抱歉 - 如果我有以下一堆查询:['我丈夫攻击了我','他被警察逮捕了','审判仍在进行中' ,'我丈夫因骚扰我而可能入狱?','免费律师'] 我的研究涉及家庭暴力,但显然这个聚类集中在问题的法律方面,因此标签可以是“法律”等。
我对NPL很陌生,但我必须明确,我不想使用POS标记提取单词(或者至少这不是预���的最终结果,但可能是必要的初步步骤之一)。
我读过Wordnet有关意义消歧的内容,我认为这可能是一个好方法,但我不想计算两个查询之间的相似性(因为聚类是输入),也不想通过整个一堆单词所提供的上下文来获得一个选定单词的定义(在这种情况下选择哪个单词?)。我想使用整个一堆单词提供上下文(可能使用synset或使用wordnet的xml结构进行分类),然后用一两个单词总结上下文。
有什么想法吗?我可以使用R或Python,我读过nltk但是我找不到在我的上下文中使用它的方法。