计算条件均值和方差的 Python 方法?

4
在Python中是否有标准的方法来计算pandas DataFrame变量的条件均值和方差?目的是测试数据的过度或欠度散性,以评估泊松回归模型或负二项式回归模型哪个更合适。
在R生态系统和Cross Validated周围浏览,我认为R具有一些内置参数分散方法的包。但是我找不到pandas,SciPy或StatsModels的Python等效方法。
这是我正在处理的数据的头部。共有25,000个观察值。
aspunet c_#     c_++    Ruby    java
0       0       0       0       6
11      0       0       0       0
0       0       7       0       0
0       0       0       9       0   
8       0       0       0       0
0       2       0       0       0
0       0       0       4       0   
0       0       0       0       6   

2
泊松回归即使存在过度离散度,也会计算条件均值。您可以基于泊松估计检验过度离散度。然而,由于观测数量大且回归器不太多,我认为没有理由预先测试而不是立即使用负二项式。 - Josef
1个回答

3
conditional = [df.groupby(col_name) for col_name in df.columns]
mean        = [cond.mean() for cond in conditional]
var         = [cond.var() for cond in conditional]

你从这个程序中得到了什么输出?我得到了十个 <zip at 0x10f313dc8> - RDJ
我想知道这个方法是否与 var(Y|X=x) = sum((y-mean(Y|X=x))^2) 得出相同的结果? - Orhan Yazar

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接