我正在尝试对一个包含两个类别 (二元分类) 的数据集进行情感分析。这个数据集非常不平衡,大约有
我认为数据集的不平衡会影响我的模型效果。我得到了大约
我使用
我尝试过
我尝试使用
有没有什么方法可以处理这种极度不平衡的数据集?如何进一步提高我的模型?我应该尝试
70% - 30%
的比例。我使用 LightGBM
和 Python 3.6
来构建模型和进行输出预测。我认为数据集的不平衡会影响我的模型效果。我得到了大约
90%
的准确率,但是即使我进行参数调优,它也不能进一步提高。我认为这不是最大可能的精度,因为还有其他人的得分比这个更好。我使用
Textacy
和 nltk
清理了数据集。我使用 CountVectorizer
对文本进行编码。我尝试过
上采样
数据集,但结果是模型效果很差(我没有对该模型进行调优)。我尝试使用
LightGBM
的 is_unbalance
参数,但它并不能给我更好的模型。有没有什么方法可以处理这种极度不平衡的数据集?如何进一步提高我的模型?我应该尝试
下采样
吗?或者这已经是最大可能的精度了?我怎样才能确定呢?
Textacy
清理了数据中的数字、表情等内容,同时也尝试了不同的Stemmers
和Lemmatisations
。 - Sreeram TPauc
作为度量标准,但没有显示出改进。由于无法在我的机器上找到该模型,因此我还没有使用word2vec
。 - Sreeram TPKeras
训练LSTM
,但结果并不是很令人满意。 - Sreeram TPbigrams
应用到数据中吗? - Sreeram TPCountVectorizer.ngram_range
参数。 - David Dale