首先,我想从三个数据框中随机抽取样本(每个数据框150行),并将结果连接起来。其次,我希望尽可能多地重复这个过程。
对于第一部分,我使用以下函数:
def get_sample(n_A, n_B, n_C):
A = df_A.sample(n = n_A, replace=False)
B = df_B.sample(n = n_B, replace=False)
C = df_C.sample(n = n_C, replace=False)
return pd.concat([A, B, C])
在第二部分中,我使用了以下代码:
results = [get_sample(5,5,3) for i in range(n)]
目前在我的MacBook上,当n = 50.000
时,分析大约需要1分钟40秒。欢迎提供如何改善此过程速度的建议!
PM这三个数据框(df_A, df_B, df_C)只有一个分类特征不同。挑战在于我想从每个类别中获取特定数量的样本。