如何使用斯坦福情感分析数据集

Question

如何使用斯坦福情感分析数据集

nlpstanford-nlpdeep-learningsentiment-analysisrecurrent-neural-network

3

我正在尝试使用斯坦福情感分析数据集进行情感分析研究。我从http://nlp.stanford.edu/sentiment/index.html下载了数据集enter link description here。阅读完自述文件后，我仍然有些困惑。

首先，dictionary.txt文件的"50446"行显示这个句子的“phrase ids”是“No.226166”，因此当我在sentiment_lable.txt文件中搜索时，我发现在“226168”行，短语“No.226166”的“情感值”为0.69444。但是，在dictionary.txt文件的“50445”行中，这个句子等于“50446”行中的句子。但是这个句子在sentiment_lable.txt文件中具有不同的“情感值”，为什么？！！！

第二个问题，在一些情感分析论文中，他们不仅使用完整的句子来训练模型，还使用作为训练句子子部分的有标签短语来训练模型。但我在dictionary.txt文件中发现了一些无用的短语，比如第2行和第3行，我应该使用这些无用的短语来训练我的模型吗？

- Nils Cao

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- StanfordNLPHelp · Accepted Answer

dictionary.txt文件的格式如下：

<Phrase>|<ID>

sentiment_labels.txt的格式为：

<Phrase ID>|<Score>

例如，

所以例如

。

id: 50445 phrase: control of both his medium and his message
score: .777

id: 50446 phrase: controlled display of murderous vulnerability ensures that malice has a very human face
score: .444