我是一个pandas数据框,如下所示:
col1, col2, label
a b 0
b b , 0
.
.
.......... 0
.......... 1
并且对标签列进行value_counts
:
df['label'].value_counts():
0: 200000
1: 10000
我希望能够随机从值为“0”的标签中选择50000行,使我的值计数如下:
0: 50000
1: 10000
我是一个pandas数据框,如下所示:
col1, col2, label
a b 0
b b , 0
.
.
.......... 0
.......... 1
并且对标签列进行value_counts
:
df['label'].value_counts():
0: 200000
1: 10000
0: 50000
1: 10000
sample
N
个值。然后,获取它们的索引,通过union
连接并只使用loc
。s0 = df.label[df.label.eq(0)].sample(50000).index
s1 = df.label[df.label.eq(1)].sample(10000).index
df = df.loc[s0.union(s1)]