我有一个df
,我想根据某个变量的分布对它进行抽样。假设df ['type'] .value_counts(normalize=True)
返回:
A 0.3
B 0.5
C 0.2
我想做类似于sampledf = df.sample(weights=df['type'].value_counts(normalize=True))
的东西,使得sampledf ['type'].value_counts(normalize=True)
返回几乎相同的分布。如何在此处传递具有频率的字典?