分类变量的多重共线性问题

11

对于数值/连续数据,为了检测预测变量之间的共线性,我们使用Pearson相关系数,以确保预测变量之间没有相关性,但与响应变量有关联。


但是,如果我们有一个数据集,其中所有预测变量都是分类的,我们如何检测多重共线性。我分享了一个数据集,尝试找出预测变量是否相关。

> A(Response Variable)   B     C   D
> Yes                    Yes Yes Yes
> No                     Yes Yes Yes
> Yes                    No   No  No

怎样做相同的事情?


http://stats.stackexchange.com/questions/108007/correlations-with-categorical-variables - Alex
1
这个问题需要迁移到CV,因为我已经标记了它。它不适合在SO上讨论。 - alexwhitworth
1
如果提问者正在寻求用R代码检测共线性或多重共线性的方法(我建议通过计算方差膨胀因子或数据矩阵的容忍度水平来完成),那么CV.com可能不是正确的场所。当问题是“如何在R中执行X?”时,他们通常会将人们转到SO。 - IRTFM
1个回答

7

共线性并不总是仅适用于一对变量,特别是涉及分类变量时。因此,尽管高相关系数足以表明共线性可能存在问题,但一堆成对的低到中等的相关性并不足以证明缺乏共线性。对于连续混合或分类变量集合的通常方法是查看方差膨胀因子(我的记忆告诉我与方差-协方差矩阵的特征值成比例)。无论如何,这是包:rms中vif函数的代码:

vif  <- 
function (fit) 
{
    v <- vcov(fit, regcoef.only = TRUE)
    nam <- dimnames(v)[[1]]
    ns <- num.intercepts(fit)
    if (ns > 0) {
        v <- v[-(1:ns), -(1:ns), drop = FALSE]
        nam <- nam[-(1:ns)]
    }
    d <- diag(v)^0.5
    v <- diag(solve(v/(d %o% d)))
    names(v) <- nam
    v
}

分类变量更容易产生共线性的原因在于,三路或四路分类表经常形成导致完全共线性的线性组合。您的例子是共线性的一个极端案例,但您也可以通过其他方法得到共线性。
A B C D
1 1 0 0
1 0 1 0
1 0 0 1

请注意,所有行中的A == B+C+D,因此这是共线的。没有任何成对相关性会很高,但整个系统会导致完全的共线性。
将数据放入R对象并在其上运行lm()后,可以明显地发现使用R确定共线性的另一种方法,即当"别名"时,lm将从结果中删除因子变量,这只是完全共线的另一个术语。
这是一个@Alex的示例,演示高度共线数据和在该情况下vif的输出。通常希望看到方差膨胀因子低于10。
> set.seed(123)
> dat2 <- data.frame(res = rnorm(100), A=sample(1:4, 1000, repl=TRUE)
+ )
> dat2$B<-dat2$A
> head(dat2)
          res A B
1 -0.56047565 1 1
2 -0.23017749 4 4
3  1.55870831 3 3
4  0.07050839 3 3
5  0.12928774 2 2
6  1.71506499 4 4
> dat2[1,2] <- 2   
#change only one value to prevent the "anti-aliasing" routines in `lm` from kicking in
> mod <-  lm( res ~ A+B, dat2) 
> summary(mod)

Call:
lm(formula = res ~ A + B, data = dat2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.41139 -0.58576 -0.02922  0.60271  2.10760 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.10972    0.07053   1.556    0.120
A           -0.66270    0.91060  -0.728    0.467
B            0.65520    0.90988   0.720    0.472

Residual standard error: 0.9093 on 997 degrees of freedom
Multiple R-squared:  0.0005982, Adjusted R-squared:  -0.001407 
F-statistic: 0.2984 on 2 and 997 DF,  p-value: 0.7421

> vif ( mod )
       A        B 
1239.335 1239.335 

如果您添加第四个变量"C",该变量与前两个自变量无关(尽管它是一个很糟糕的变量名称,因为"C"也是R函数的名称),则可以从"vif"函数中获得更理想的结果。
 dat2$C <- sample(1:4, 1000, repl=TRUE)

 vif ( lm( res ~ A + C, dat2) )
#---------    
   A        C 
1.003493 1.003493 

编辑:我意识到尽管从 1:4 中采样,但我实际上没有创建“分类变量”的R表示。那种“样本”的因子版本也会产生同样的结果:

>  dat2 <- data.frame(res = rnorm(100), A=factor( sample(1:4, 1000, repl=TRUE) ) )
>  dat2$B<-dat2$A
>  head(dat2)
          res A B
1 -0.56047565 1 1
2 -0.23017749 4 4
3  1.55870831 3 3
4  0.07050839 3 3
5  0.12928774 2 2
6  1.71506499 4 4
>  dat2[1,2] <- 2   
> #change only one value to prevent the "anti-aliasing" routines in `lm` from kicking in
>  mod <-  lm( res ~ A+B, dat2) 
>  summary(mod)


Call:
lm(formula = res ~ A + B, data = dat2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.43375 -0.59278 -0.04761  0.62591  2.12461 

Coefficients: (2 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.11165    0.05766   1.936   0.0531 .
A2          -0.67213    0.91170  -0.737   0.4612  
A3           0.01293    0.08146   0.159   0.8739  
A4          -0.04624    0.08196  -0.564   0.5728  
B2           0.62320    0.91165   0.684   0.4944  
B3                NA         NA      NA       NA  
B4                NA         NA      NA       NA  
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9099 on 995 degrees of freedom
Multiple R-squared:  0.001426,  Adjusted R-squared:  -0.002588 
F-statistic: 0.3553 on 4 and 995 DF,  p-value: 0.8404

请注意,在计算系数时,有两个因素级别被省略了......因为它们与相应的A级别完全共线。因此,如果您想查看几乎共线的因子变量返回的 vif 值,您需要改变更多的值:
> dat2[1,2] <- 2   
> dat2[2,2] <-2; dat2[3,2]<-2; dat2[4,2]<-4
>  mod <-  lm( res ~ A+B, dat2) 
>  summary(mod)

Call:
lm(formula = res ~ A + B, data = dat2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.42819 -0.59241 -0.04483  0.62482  2.12461 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.11165    0.05768   1.936   0.0532 .
A2          -0.67213    0.91201  -0.737   0.4613  
A3          -1.51763    1.17803  -1.288   0.1980  
A4          -0.97195    1.17710  -0.826   0.4092  
B2           0.62320    0.91196   0.683   0.4945  
B3           1.52500    1.17520   1.298   0.1947  
B4           0.92448    1.17520   0.787   0.4317  
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9102 on 993 degrees of freedom
Multiple R-squared:  0.002753,  Adjusted R-squared:  -0.003272 
F-statistic: 0.4569 on 6 and 993 DF,  p-value: 0.8403
#--------------
> library(rms)

> vif(mod)
      A2       A3       A4       B2       B3       B4 
192.6898 312.4128 308.5177 191.2080 312.5856 307.5242 

4
分类变量不可能共线。它们在欧几里得空间中不代表线性度量。可以使用卡方检验来测试分类变量的独立性。 - alexwhitworth
R因子变量表示为整数,它们在我描述的情况下可能会共线,因为由数据交叉乘积形成的矩阵的可逆性决定了是否存在共线性。 - IRTFM
3
不是的。这是统计学和数学中的定义性问题。共线(def-geometry):如果点位于一条直线上,则称它们共线。共线性(def-statistics):两个变量之间的线性关系...您提供了一个使用VIF的经验性例子,但在统计学上没有实质意义。即-VIF确实在R中进行计算,因为您描述的R中的整数编码。但这并不意味着它具有统计上有效的解释。 - alexwhitworth
你不是在试图生成解释,而是在尝试预防分析错误。顺便说一句,你拼错了你试图“保护”的术语。 - IRTFM
感谢您发现了这个笔误...同意 - 让我们预防分析错误。认为分类变量可以共线是一种分析错误。 - alexwhitworth
无论你如何称呼它,在模型输出中使用 vif 是评估分类变量缺乏联合独立性的有效方法。未能使用有效的方法来评估这种相关性会导致分析错误。 - IRTFM

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接