在R中使用anova()比较两个线性模型

Question

在R中使用anova()比较两个线性模型

6

我不太理解输出结果中的p值具体意义。我的意思不是说p值本身，而是在这种情况下。

> Model 1: sl ~ le + ky 
> Model 2: sl ~ le   
  Res.Df     RSS Df   Sum of Sq      F Pr(>F) 
1     97 0.51113                              
2     98 0.51211 -1 -0.00097796 0.1856 0.6676

我得到了这样的结果，现在我在想哪个模型更适合。由于只有一个p值而不是两个，我感到很困惑。使用summary(model1)或summary(model2)我得到不同的p值。

如果现在

> fm2<-lm(Y~X+T)

（T是我的指示变量）和

> fm4<-lm(Y~X)

如果我这样做

> anova(fm2,fm4)

这是对零假设进行测试的内容，H0: alpha1==alpha2 (Ha: alpha1!=alpha2)其中c(alpha)是我的截距。因此测试的是是否应该只有一个截距（=> alpha1==alpha2），还是两个截距 (alpha1!=alpha2)。

在这种情况下，由于p值为0.6676，我们现在明显地拒绝了零假设。

这意味着我们应该坚持使用模型fm4，因为它更适合我们的数据。

我得出的结论正确吗？我尽力了，但不确定p值的含义。因为只有一个，所以我想这可能是它的含义。能否有人澄清一下情况？

- lisa

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ben Bolker · Accepted Answer

你是不是想说“显然不拒绝零假设”而不是“现在显然拒绝”？考虑到你问题的其他部分，前者似乎更有意义。因为要比较两个模型，所以只有一个p值（零假设与备择假设之间的单一比较，或者在这种情况下是零假设与未指定的备择假设之间的比较）。从你上面提到的内容来看，似乎le是一个连续预测变量，ky是一个分类预测变量，因此你正在比较一个具有斜率和截距的模型与（如你所说）一个具有单一斜率和两个截距的模型。由于p值相对较大，这意味着数据没有提供支持ky的加性效应的证据。通常，简单的模型会更合适（尽管要注意这个结论，因为p值是用来检验假设的，而不是用来选择模型的）。 < p >每个单独模型的< code >summary()所得到的p值是该模型中每个参数效应的p值，条件是该模型中所有其他参数。如果您的数据完全平衡（在回归设计中这是不太可能的），您应该从< code >summary和< code >anova得到相同的答案，但通常来说，anova的结果更可取。

这个问题可能更适合http://stats.stackexchange.com，因为它实际上是关于统计解释而不是编程...