在R中使用anova()比较两个线性模型

6

我不太理解输出结果中的p值具体意义。我的意思不是说p值本身,而是在这种情况下。

> Model 1: sl ~ le + ky 
> Model 2: sl ~ le   
  Res.Df     RSS Df   Sum of Sq      F Pr(>F) 
1     97 0.51113                              
2     98 0.51211 -1 -0.00097796 0.1856 0.6676

我得到了这样的结果,现在我在想哪个模型更适合。 由于只有一个p值而不是两个,我感到很困惑。 使用summary(model1)或summary(model2)我得到不同的p值。

如果现在

> fm2<-lm(Y~X+T)

(T是我的指示变量)和
> fm4<-lm(Y~X)

如果我这样做

> anova(fm2,fm4)

这是对零假设进行测试的内容,H0: alpha1==alpha2 (Ha: alpha1!=alpha2)其中c(alpha)是我的截距。 因此测试的是是否应该只有一个截距(=> alpha1==alpha2),还是两个截距 (alpha1!=alpha2)。

在这种情况下,由于p值为0.6676,我们现在明显地拒绝了零假设。

这意味着我们应该坚持使用模型fm4,因为它更适合我们的数据。

我得出的结论正确吗?我尽力了,但不确定p值的含义。因为只有一个,所以我想这可能是它的含义。 能否有人澄清一下情况?

1个回答

6
你是不是想说“显然不拒绝零假设”而不是“现在显然拒绝”?考虑到你问题的其他部分,前者似乎更有意义。因为要比较两个模型,所以只有一个p值(零假设与备择假设之间的单一比较,或者在这种情况下是零假设与未指定的备择假设之间的比较)。从你上面提到的内容来看,似乎le是一个连续预测变量,ky是一个分类预测变量,因此你正在比较一个具有斜率和截距的模型与(如你所说)一个具有单一斜率和两个截距的模型。由于p值相对较大,这意味着数据没有提供支持ky的加性效应的证据。通常,简单的模型会更合适(尽管要注意这个结论,因为p值是用来检验假设的,而不是用来选择模型的)。 < p >每个单独模型的< code >summary()所得到的p值是该模型中每个参数效应的p值,条件是该模型中所有其他参数。如果您的数据完全平衡(在回归设计中这是不太可能的),您应该从< code >summary和< code >anova得到相同的答案,但通常来说,anova的结果更可取。

这个问题可能更适合http://stats.stackexchange.com,因为它实际上是关于统计解释而不是编程...


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接