如何在 Pandas 中进行 groupby 后获取两个组之间的 p 值?

8

我在如何将自定义函数应用于从pandas groupby获得的两组数据以计算p值方面遇到了困难。

词汇表

test = 0 ==> test
test = 1 ==> control

问题设置

import numpy as np
import pandas as pd
import scipy.stats as ss

np.random.seed(100)
N = 15
df = pd.DataFrame({'country': np.random.choice(['A','B','C'],N),
                   'test': np.random.choice([0,1], N),
                   'conversion': np.random.choice([0,1], N),
                   'sex': np.random.choice(['M','F'], N)

                  })


ans = df.groupby(['country','test'])['conversion'].agg(['size','mean']).unstack('test')
ans.columns = ['test_size','control_size','test_mean','control_mean']
         test_size  control_size  test_mean  control_mean
country                                                  
A                3             3   0.666667      0.666667
B                1             1   1.000000      1.000000
C                4             3   0.750000      1.000000

问题

现在我想添加两列数据以获取测试组和对照组之间的p值。 但是,在我的groupby中,我只能一次操作一个系列,不确定如何使用两个系列来获取p值。

目前已完成的工作:

def get_ttest(x,y):
    return stats.ttest_ind(x, y, equal_var=False).pvalue

pseudo code:

df.groupby(['country','test'])['conversion'].agg(
['size','mean', some_function_to_get_pvalue])

如何获取p值列?

所需答案

我需要获取列pvalue的值。

         test_size  control_size  test_mean  control_mean  pvalue
country                                                  
A                3             3   0.666667      0.666667   ?
B                1             1   1.000000      1.000000   ?
C                4             3   0.750000      1.000000   ?

1
这回答解决了您的问题吗?从Pandas DataFrame计算p值 - Vincent
1
简而言之:你不能只用一个groupby来完成它。你需要先按国家+组编写第一个聚合函数来计算大小、平均值和方差(需要自定义聚合函数)。然后,仅按国家进行聚合以计算p值(另一个自定义聚合函数)。整个设置看起来很丑陋,因此也许只是按国家进行聚合并明确地执行其余操作(即通过测试/控制筛选数据框,然后合并并使用.apply)会更直观。 - Marat
@Marat 谢谢您提供有用的建议。我会进一步研究它。 - BhishanPoudel
2个回答

8
您可以这样做:
import numpy as np
import pandas as pd
import scipy.stats as stats

def get_ttest(x,y,sided=1):
    return stats.ttest_ind(x, y, equal_var=False).pvalue/sided

np.random.seed(100)
N = 15
df = pd.DataFrame({'country': np.random.choice(['A','B','C'],N),
                   'test': np.random.choice([0,1], N),
                   'conversion': np.random.choice([0,1], N),
                   'sex': np.random.choice(['M','F'], N)

                  })


col_groupby = 'country'
col_test_control = 'test'
col_effect = 'conversion'

a,b = df[col_test_control].unique()

df_pval = df.groupby([col_groupby,col_test_control])\
            [col_effect].agg(['size','mean']).unstack(col_test_control)

df_pval.columns = [f'group{a}_size',f'group{b}_size',
                   f'group{a}_mean',f'group{b}_mean']

df_pval['pvalue'] = df.groupby(col_groupby).apply(lambda dfx: get_ttest(
    dfx.loc[dfx[col_test_control] == a, col_effect],
    dfx.loc[dfx[col_test_control] == b, col_effect]))


df_pval.pipe(print)

结果

         test_size  control_size  test_mean  control_mean    pvalue
country                                                            
A                3             3   0.666667      0.666667  1.000000
B                1             1   1.000000      1.000000       NaN
C                4             3   0.750000      1.000000  0.391002

测试结果

# test for country C
c0 = df.loc[(df.country=='C') & (df.test==0),'conversion']
c1 = df.loc[(df.country=='C') & (df.test==1),'conversion']

pval = stats.ttest_ind(c0, c1, equal_var=False).pvalue
print(pval) # 0.39100221895577053

3

pivot 可以用于获取数据所需的转换。

def f(group):
    pvt_table = group.pivot(columns='test', values='conversion')
    return(stats.ttest_ind(pvt_table[0], pvt_table[1],
     equal_var=False, nan_policy='omit').pvalue)

grouped = df.groupby(['country'])['test','conversion']
grouped.apply(f)

#country
#A           1
#B          --
#C    0.391002
#dtype: object


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接