如何获取自助法得出的p值和t值，以及函数boot()是如何工作的？

Question

如何获取自助法得出的p值和t值，以及函数boot()是如何工作的？

4

我希望能够获得一个线性模型的自举t值和自举p值。下面是一段代码，基本上是从一篇论文中复制过来的，并且已经可以正常使用。

# First of all you need the following packages
install.packages("car") 
install.packages("MASS")
install.packages("boot")
library("car")
library("MASS")
library("boot")

boot.function <- function(data, indices){
data <- data[indices,]
mod <- lm(prestige ~ income + education, data=data) # the liear model

# the first element of the following vector contains the t-value
# and the second element is the p-value
c(summary(mod)[["coefficients"]][2,3], summary(mod)[["coefficients"]][2,4])     
}

现在，我计算引导模型，结果如下：

duncan.boot <- boot(Duncan, boot.function, 1999)
duncan.boot

ORDINARY NONPARAMETRIC BOOTSTRAP


Call:
boot(data = Duncan, statistic = boot.function, R = 1999)


Bootstrap Statistics :
        original      bias    std. error
t1* 5.003310e+00 0.288746545  1.71684664
t2* 1.053184e-05 0.002701685  0.01642399

我有两个问题：

1. 我的理解是，bootstrapped value指的是原始值加上偏差，这意味着bootstrapped t-value和bootstrapped p-value都比原始值大。然而这是不可能的，因为如果t-value升高（也就是更显著），p-value一定会降低，对吧？因此我认为我还没有真正理解boot函数的输出结果（这里是duncan.boot）。那么我该如何计算bootstrapped values？

2. 我不明白boot()是如何工作的。如果你看一下"duncan.boot <- boot(Duncan, boot.function, 1999)"，你会发现我没有传递任何参数给函数"boot.function"。我想R设置了"data <- Duncan"。但由于我没有为参数"indices"传递任何内容，我不明白函数"boot.function"中的以下代码如何工作："data <- data[indices,]"。

希望我的问题表述清晰！

- Hagen Brenner

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- IRTFM · Accepted Answer

启动函数期望得到一个带有两个参数的函数：第一个参数是数据框(data.frame)，第二个参数是“indices”向量（可能包含重复条目，且可能不使用所有索引）用于选择行并可能具有一些重复或三倍以上的条目。然后，根据重复和三倍以上的模式从原始数据帧中进行替换抽样（使用不同的“choice sets”多次确定），将其传递给boot.function中的indices参数，然后收集R个函数应用程序的结果。

关于boot对象的print方法报告的内容，请看这里（在使用str()检查返回的对象之后完成）。

> duncan.boot$t0
[1] 5.003310e+00 1.053184e-05
> apply(duncan.boot$t, 2, mean)
[1] 5.342895220 0.002607943
> apply(duncan.boot$t, 2, mean) - duncan.boot$t0
[1] 0.339585441 0.002597411

越来越明显的是，T0值来自原始数据，而偏差是boot()值的平均值与T0值之间的差异。我认为，问基于参数考虑的p值为什么随着估计t统计量的增加而增加并没有多大意义。当你这样做时，你真的处于两个不同的统计思维领域。我会将p值的增加解释为抽样过程的影响，而该过程并未考虑正态分布的假设。它只是在描述p值的抽样分布（实际上只是另一个样本统计量）。

（注：R开发时使用的源书是Davison和Hinkley的“Bootstrap Methods and their Applications”。我并不支持自己上面的回答，但在Hagen Brenner在下面的评论中问及具有两个索引的抽样后，我想把它作为参考放上去。当我们处理更复杂的抽样情况时，bootstrap方法会出现许多意想不到的方面，我首先会借鉴那篇参考文献。）