我正在尝试使用斯坦福情感分析数据集进行情感分析研究。我从http://nlp.stanford.edu/sentiment/index.html下载了数据集enter link description here。阅读完自述文件后,我仍然有些困惑。
首先,dictionary.txt文件的"50446"行显示这个句子的“phrase ids”是“No.226166”,因此当我在sentiment_lable.txt文件中搜索时,我发现在“226168”行,短语“No.226166”的“情感值”为0.69444。但是,在dictionary.txt文件的“50445”行中,这个句子等于“50446”行中的句子。但是这个句子在sentiment_lable.txt文件中具有不同的“情感值”,为什么?!!!
第二个问题,在一些情感分析论文中,他们不仅使用完整的句子来训练模型,还使用作为训练句子子部分的有标签短语来训练模型。但我在dictionary.txt文件中发现了一些无用的短语,比如第2行和第3行,我应该使用这些无用的短语来训练我的模型吗?
首先,dictionary.txt文件的"50446"行显示这个句子的“phrase ids”是“No.226166”,因此当我在sentiment_lable.txt文件中搜索时,我发现在“226168”行,短语“No.226166”的“情感值”为0.69444。但是,在dictionary.txt文件的“50445”行中,这个句子等于“50446”行中的句子。但是这个句子在sentiment_lable.txt文件中具有不同的“情感值”,为什么?!!!
第二个问题,在一些情感分析论文中,他们不仅使用完整的句子来训练模型,还使用作为训练句子子部分的有标签短语来训练模型。但我在dictionary.txt文件中发现了一些无用的短语,比如第2行和第3行,我应该使用这些无用的短语来训练我的模型吗?