如何使用斯坦福情感分析数据集

3
我正在尝试使用斯坦福情感分析数据集进行情感分析研究。我从http://nlp.stanford.edu/sentiment/index.html下载了数据集enter link description here。阅读完自述文件后,我仍然有些困惑。
首先,dictionary.txt文件的"50446"行显示这个句子的“phrase ids”是“No.226166”,因此当我在sentiment_lable.txt文件中搜索时,我发现在“226168”行,短语“No.226166”的“情感值”为0.69444。但是,在dictionary.txt文件的“50445”行中,这个句子等于“50446”行中的句子。但是这个句子在sentiment_lable.txt文件中具有不同的“情感值”,为什么?!!!
第二个问题,在一些情感分析论文中,他们不仅使用完整的句子来训练模型,还使用作为训练句子子部分的有标签短语来训练模型。但我在dictionary.txt文件中发现了一些无用的短语,比如第2行和第3行,我应该使用这些无用的短语来训练我的模型吗?
1个回答

1

dictionary.txt文件的格式如下:

<Phrase>|<ID>

sentiment_labels.txt的格式为:

<Phrase ID>|<Score>

例如,

所以例如


id: 50445 phrase: control of both his medium and his message
score: .777

id: 50446 phrase: controlled display of murderous vulnerability ensures that malice has a very human face
score: .444

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接