我有两个班级,A和B。每个班级的样本数量不均衡,比如A班有500个样本,B班有1000个样本。
是否有办法使用scikit learn或者任何Numpy函数提取出每个班级平衡的样本数量,比如A班和B班各300个样本。
样本数据在前5列,类别标签在最后一列。
1 2 3 4 5 1
2 3 4 2 3 1
4 0 5 4 3 1
4 5 9 2 4 2
5 9 5 3 9 2
我希望最终选择的两个类别具有相等数量的样本:
2 3 4 2 3 1
4 0 5 4 3 1
4 5 9 2 4 2
5 9 5 3 9 2