我目前正在处理一个机器学习问题,需要处理大量不平衡的数据集。也就是说,有六个类别('1','2' ... '6')。不幸的是,例如对于类别'1',有150个例子/实例,对于'2'只有90个实例,而对于类别'3'只有20个。所有其他类别都无法“训练”,因为这些类别没有可用的实例。
到目前为止,我发现WEKA(我使用的机器学习工具包)提供了这个监督性的“Resample”过滤器。当我将此过滤器应用于'noReplacement'=false和'bialToUniformClass'=1.0时,结果是一个数据集,其中实例的数量很好且几乎相等(对于类别'1'..'3',其他类别保持为空)。
我的问题是:WEKA和这个过滤器是如何为不同的类别生成“新”的/额外的实例的?
非常感谢您提前提供任何提示或建议。
祝好 朱利安
到目前为止,我发现WEKA(我使用的机器学习工具包)提供了这个监督性的“Resample”过滤器。当我将此过滤器应用于'noReplacement'=false和'bialToUniformClass'=1.0时,结果是一个数据集,其中实例的数量很好且几乎相等(对于类别'1'..'3',其他类别保持为空)。
我的问题是:WEKA和这个过滤器是如何为不同的类别生成“新”的/额外的实例的?
非常感谢您提前提供任何提示或建议。
祝好 朱利安