使用正态分布和t分布在R中计算概率。

3

我有这个样例:

x=c(92L, 9L, 38L, 43L, 74L, 16L, 75L, 55L, 39L, 77L, 76L, 52L, 
100L, 85L, 62L, 60L, 49L, 28L, 6L, 27L, 63L, 22L, 23L, 99L, 61L, 
25L, 19L, 48L, 91L, 57L, 97L, 84L, 31L, 87L, 1L, 21L, 30L, 41L, 
13L, 72L, 68L, 95L, 47L, 11L, 24L, 58L, 18L, 67L, 33L, 8L, 50L, 
4L, 40L, 12L, 73L, 78L, 86L, 69L, 44L, 83L, 94L, 65L, 37L, 70L, 
54L, 46L, 15L, 53L, 89L, 98L, 90L, 3L, 14L, 17L, 42L, 45L, 79L, 
20L, 32L, 34L, 64L, 88L, 81L, 96L, 59L, 71L, 56L, 26L, 51L, 29L, 
80L, 7L, 36L, 93L, 82L, 35L, 5L, 2L, 10L, 66L)

我希望计算这个概率:P(x) > Mean(x) + 3,假设数据呈正态分布。
所以我这样做:mean(x) = 50.5 ; sd(x)=29.01 我生成密度分布并计算我的概率,现在是:
P(x) > 53.5

pnorm(53.5, mean=mean(x), sd=sd(x), lower.tail=FALSE) 

如果我想使用标准分布进行计算:
P(x)>(53.5) = P(z=(x-mean(x)/sd(x))) > ((53.5 - 50.5)/29.01) = P(z)>(3/29.01)

pnorm(3/29.01149, mean=0, sd=1, lower.tail=FALSE) 

但是当我想使用T-Student分布时,该怎么做呢?

1个回答

4

在这里使用 t 分布更为合适,因为标准误差是从数据中估计得出的。

pt(3 / sd(x), df = length(x) - 1, lower.tail = FALSE)
# [1] 0.4589245

我们有length(x)条数据,但是还需要估计一个参数(标准误差),所以t分布的自由度为length(x) - 1
与使用正态分布相比,虽然length(x)为100(足够大),但并没有太大的区别。
pnorm(3 / sd(x), lower.tail = FALSE)
# [1] 0.4588199

对于正态分布,我们不应该有(X-mu)/(sigma / sqrt(n))~ N(0,1),并且对于样本大小n,(X-mu)/(s / sqrt(n))~ t(df = n-1)吗?这里X = 53.3,但是正态分布的总体参数mu和sigma在哪里,即使对于t分布,我们已经有了s=sd(x)。我们在哪里使用样本大小来定义我们的检验统计量? - Sandipan Dey
所以我们正在标准化(计算z分数),完全不使用样本大小,也不计算标准误差(不考虑样本大小),那么我们使用哪个理论来得出测试统计量也收敛于标准正态分布的结论(如果不是中心极限定理)?因为后来我们使用标准正态分布的CDF来计算概率。 - Sandipan Dey

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接