如何从Pandas MultiIndex中获取随机(Bootstrap)样本

7

我正在尝试从Pandas中的多索引数据框创建引导样本。以下是生成所需数据类型的代码。

from itertools import product
import pandas as pd
import numpy as np

df = pd.DataFrame({'group1': [1, 1, 1, 2, 2, 3],
                       'group2': [13, 18, 20, 77, 109, 123],
                       'value1': [1.1, 2, 3, 4, 5, 6],
                       'value2': [7.1, 8, 9, 10, 11, 12]
                       })
df = df.set_index(['group1', 'group2'])

print df

df数据帧如下:

                   value1  value2
group1 group2                
1      13         1.1     7.1
       18         2.0     8.0
       20         3.0     9.0
2      77         4.0    10.0
       109        5.0    11.0
3      123        6.0    12.0

我希望从第一个索引中获取随机样本。例如,假设随机值np.random.randint(3,size=3)生成[3,2,2]。我希望结果数据框如下:

                   value1  value2
group1 group2                
3      123        6.0    12.0
2      77         4.0    10.0
       109        5.0    11.0
2      77         4.0    10.0
       109        5.0    11.0

我已经花费了很多时间进行研究,但我无法找到一个类似的例子,其中 multiindex 的值是整数,二级索引长度可变,并且主要索引样本是重复的。这是我认为适当实现引导的方法。

1个回答

3

尝试:

df.unstack().sample(3, replace=True).stack()

enter image description here


2
无法处理大型数据集:ValueError:未堆叠的DataFrame太大,导致int32溢出 - Amin
@Amin 的回答已经有4.5年了。请提出一个新问题并提及大型数据集。请求内存和CPU的效率。 - piRSquared

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接