我应该使用哪个scipy统计检验来比较样本均值?

13
假设样本量不相等,下面情况下我该使用什么检验方法来比较样本均值(请更正如果以下任何内容不正确):

正态分布=真方差齐性=真


scipy.stats.ttest_ind(sample_1, sample_2)

正态分布 = 真方差齐性 = 假

scipy.stats.ttest_ind(sample_1, sample_2, equal_var = False)

正态分布 = 错误方差的同质性 = 正确

scipy.stats.mannwhitneyu(sample_1, sample_2)

正态分布 = 错误,且 方差齐性 = 错误

???

3
这似乎更像是一个统计学问题。你尝试过交叉验证吗:http://stats.stackexchange.com/? - TWhite
谢谢,我已经在这里发布了问题:[链接](http://stats.stackexchange.com/questions/110175/how-do-i-compare-sample-means-in-this-experimental-control-group-study) - blahblahblah
1个回答

10

快速回答:

正态分布 = 真实方差齐性 = 不真实样本量 > 30-50

scipy.stats.ttest_ind(sample1, sample2, equal_var=False)

优秀的回答:

如果你查看中心极限定理,它说(来自维基百科):“在概率论中,中心极限定理(CLT)指出,在某些条件下,独立随机变量的足够多次迭代的算术平均值,每个变量都有一个明确定义(有限)的期望值和有限方差,将近似服从正态分布,而不管底层分布如何”

因此,虽然你没有正态分布的总体,但如果你的样本足够大(大于30或50个样本),那么样本的平均数就会服从正态分布。所以,你可以使用:

scipy.stats.ttest_ind(sample1, sample2, equal_var=False)

这是一个双边检验,用于检验两个独立样本是否具有相同的平均值(期望值)。如果选择 equal_var = False 选项,则执行 Welch's t-test,它不假设相等的总体方差。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接