我有一个数据集,包含大约5000个图像类别,但每个类别的图像数量从20到2000不等,这很不平衡。而且,图像的数量远远不足以从头开始训练模型。我决定在预训练模型上进行微调,比如Inception模型。
但我不确定如何处理不平衡的数据。有几种可能的方法:
但我不确定如何处理不平衡的数据。有几种可能的方法:
- 过采样:对少数类别进行过采样。但即使使用激进的图像增强技术,我们也可能无法处理过拟合问题。
此外,如何从如此多的类别的不平衡数据集中生成平衡批次?您对使用TensorFlow实现此管道机制有什么想法吗? - SMOTE:我认为它对于高维信号(如图像)不太有效。
- 在每个批次中对交叉熵损失进行加权。这可能对单个批次有用,但不能解决整体不平衡的问题。