我正在从事情感分析工作,使用的数据集在此链接中提供: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
我将数据集分为50%的测试样本和50%的训练样本,并从训练样本中提取特征来使用 Weka 分类器进行分类。然而,我的预测精度约为70-75%。
有没有人能够建议其他数据集,可以帮助我提高结果-我已经使用了unigram, bigram和POStags作为我的特征。
我正在从事情感分析工作,使用的数据集在此链接中提供: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
我将数据集分为50%的测试样本和50%的训练样本,并从训练样本中提取特征来使用 Weka 分类器进行分类。然而,我的预测精度约为70-75%。
有没有人能够建议其他数据集,可以帮助我提高结果-我已经使用了unigram, bigram和POStags作为我的特征。
获取情感分析数据集的途径有很多:
但这并不意味着它会帮助您获得更好的准确性,因为语料库可能与您的数据集非常不同。除了减少测试百分比与训练之外,您还可以:尝试其他分类器或使用半自动化包装器(如CVParameterSelection或GridSearch)微调所有超参数,甚至是auto-weka(如果适用)。
使用50/50非常罕见,80/20是一个常见的比例。更好的做法是使用:60%进行训练、20%进行交叉验证、20%进行测试。
这里是一份数据集列表,其中包含了单词情感的信息。 http://positivewordsresearch.com/sentiment-analysis-resources/