未分割列表、合并因素

Question

未分割列表、合并因素

4

I have the following data frame in R:

然后我按以下方式进行split：z = lapply(split(test$c1, test$c2), function(x) {cut(x,2)})。此时，z如下：

$a  
[1] (9.99,15] (15,20]  
Levels: (9.99,15] (15,20]

$b  
[1] (30,35] (35,40]
Levels: (30,35] (35,40]

我希望能将这些因素合并回来，通过取消列表的分裂 unsplit(z, test$c2)。这会生成一个警告：

[1] (9.99,15] (15,20]   <NA>      <NA>     
Levels: (9.99,15] (15,20]
Warning message:
In `[<-.factor`(`*tmp*`, i, value = 1:2) :
  invalid factor level, NAs generated

我想将所有因子水平取并集，然后解除分裂，以避免出现此错误：

z$a = factor(z$a, levels=c(levels(z$a), levels(z$b)))
unsplit(z, test$c2)
[1] (9.99,15] (15,20]   (30,35]   (35,40]  
Levels: (9.99,15] (15,20] (30,35] (35,40]

在我的实际数据框中，我有一个非常大的列表，因此我需要迭代所有列表元素（不仅仅是两个）。做到这一点最好的方法是什么？

- Alex

2个回答

4

如果我正确理解了你的问题，那么我认为你把问题想得太复杂了。这里提供一种使用plyr的解决方案。我们将按c2变量进行分组：

require(plyr)
ddply(test, "c2", transform, newvar = cut(c1, 2))

返回：

  c1 c2    newvar
1 10  a (9.99,15]
2 20  a   (15,20]
3 30  b   (30,35]
4 40  b   (35,40]

并且具有以下结构：

'data.frame':   4 obs. of  3 variables:
 $ c1    : num  10 20 30 40
 $ c2    : Factor w/ 2 levels "a","b": 1 1 2 2
 $ newvar: Factor w/ 4 levels "(9.99,15]","(15,20]",..: 1 2 3 4

- Chase

是的，这正是我想做的。非常感谢你的帮助！-Alex - Alex

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Gavin Simpson · Accepted Answer

你能不能直接使用unlist()来处理z？

> unlist(z)
       a1        a2        b1        b2 
(9.99,15]   (15,20]   (30,35]   (35,40] 
Levels: (9.99,15] (15,20] (30,35] (35,40]

或者在结果因子上不使用名称：

> unlist(z, use.names=FALSE)
[1] (9.99,15] (15,20]   (30,35]   (35,40]  
Levels: (9.99,15] (15,20] (30,35] (35,40]

您可以将所有内容合并成一个简单的一行代码，无需添加任何附加包：

> (test2 <- within(test, newvar <- unlist(lapply(split(c1, c2), cut, 2))))
  c1 c2    newvar
1 10  a (9.99,15]
2 20  a   (15,20]
3 30  b   (30,35]
4 40  b   (35,40]