我正在使用Python NLTK对Twitter数据进行情感分析。我需要一个包含积极和消极词汇极性的词典。我已经阅读了很多关于sentiwordnet的资料,但当我在我的项目中使用它时,它没有给出高效和快速的结果。我认为我没有正确地使用它。有人能告诉我正确的使用方法吗?以下是我迄今为止所做的步骤:
1. 对推文进行分词 2. 对标记进行POS标记 3. 将每个标记传递给sentinet
我正在使用nltk软件包进行分词和标记。下面是我的一部分代码:
1. 对推文进行分词 2. 对标记进行POS标记 3. 将每个标记传递给sentinet
我正在使用nltk软件包进行分词和标记。下面是我的一部分代码:
import nltk
from nltk.stem import *
from nltk.corpus import sentiwordnet as swn
tokens=nltk.word_tokenize(row) #for tokenization, row is line of a file in which tweets are saved.
tagged=nltk.pos_tag(tokens) #for POSTagging
for i in range(0,len(tagged)):
if 'NN' in tagged[i][1] and len(swn.senti_synsets(tagged[i][0],'n'))>0:
pscore+=(list(swn.senti_synsets(tagged[i][0],'n'))[0]).pos_score() #positive score of a word
nscore+=(list(swn.senti_synsets(tagged[i][0],'n'))[0]).neg_score() #negative score of a word
elif 'VB' in tagged[i][1] and len(swn.senti_synsets(tagged[i][0],'v'))>0:
pscore+=(list(swn.senti_synsets(tagged[i][0],'v'))[0]).pos_score()
nscore+=(list(swn.senti_synsets(tagged[i][0],'v'))[0]).neg_score()
elif 'JJ' in tagged[i][1] and len(swn.senti_synsets(tagged[i][0],'a'))>0:
pscore+=(list(swn.senti_synsets(tagged[i][0],'a'))[0]).pos_score()
nscore+=(list(swn.senti_synsets(tagged[i][0],'a'))[0]).neg_score()
elif 'RB' in tagged[i][1] and len(swn.senti_synsets(tagged[i][0],'r'))>0:
pscore+=(list(swn.senti_synsets(tagged[i][0],'r'))[0]).pos_score()
nscore+=(list(swn.senti_synsets(tagged[i][0],'r'))[0]).neg_score()
最后,我将计算有多少推文是积极的,有多少是消极的。 我错在哪里? 我应该如何使用它? 是否有其他类似且易于使用的词典?
u're -> you + are
等。 - alvas