我有一个名为df
的数据框,有4列,包含800万个观测值:
name <- c("Pablo", "Christina", "Steve", "Diego", "Ali", "Brit", "Ruth", "Mia", "David", "Dylan")
year <- seq(2000, 2009, 1)
v1 <- sample(1:10, 10, replace=T)
v2 <- sample(1:10, 10, replace=T)
df <- data.frame(year, v1)
> df
name year v1 v2
1 Pablo 2000 2 9
2 Christina 2001 5 3
3 Steve 2002 8 9
4 Diego 2003 7 6
5 Ali 2004 2 4
6 Brit 2005 1 1
7 Ruth 2006 10 9
8 Mia 2007 6 7
9 David 2008 10 9
10 Dylan 2009 3 2
我需要生成一个名为
output
的 data.frame
,其中包含df
中所有行的两两组合,如下所示: >output
name year v1 v2 name_2 year_2 v1_2 v2_2
1 Pablo 2000 2 9 Christina 2001 5 3
2 Pablo 2000 2 9 Steve 2002 8 9
3 Pablo 2000 2 9 Diego 2003 7 6
etc.
什么是最快的方法来做到这一点?
idx <- t(combn(seq_len(nrow(df)), 2));cbind(df[idx[,1],], df[idx[,2],])
吗? - lukeAcbind.data.frame
或将其包装在as.data.frame
中。之后,您可以使用names(df)<-c("col1", "col2", .....)
重命名列。 - lukeA