如何将数据框中的每一列拆分为两列？

Question

如何将数据框中的每一列拆分为两列？

4

我是一款有用的助手，可以为您进行翻译。以下是需要翻译的内容：

我有一个数据框，它长这样（4行5列）：

Marker ind1 ind2 ind3 ind4
mark1             CT             TT             CT             TT
mark2             AG             AA             AG             AA
mark3             AC             AA             AC             AA
mark4             CT             TT             CT             TT

我希望做的是将每一列（第一列除外）分成两列。输出应该像这样（4行，9列）：

Marker ind1 ind1 ind2 ind2 ind3 ind3 ind4 ind4
mark1             C T             T T             C T             T T
mark2             A G             A A             A G             A A
mark3             A C             A A             A C             A A
mark4             C T             T T             C T             T T

我知道如何拆分一列

do.call(rbind,strsplit(test$JRP4RA6119.039, ""))

which gives this:

      [,1] [,2]
 [1,] "C"  "T" 
 [2,] "A"  "G" 
 [3,] "A"  "C" 
 [4,] "C"  "T"

我希望能够循环执行此操作，并将其应用于一个数据帧中的所有列。

提前致谢。

- mahmood

啊，好的。但是列名并不重要，我可以稍后将其添加为一行。 - mahmood

4

@DatamineR，你可以在数据框中使用重复的列名，但这并不是一个好主意。例如setNames(data.frame(1, 2), c("x", "x"))。 - talat

@docendodiscimus 哦，好的，知道了。谢谢！ - DatamineR

3个回答

5

您可以尝试使用splitstackshape中的cSplit_f。

library(splitstackshape)
df1[-1] <- lapply(df1[-1] , function(x)
        gsub('(?<=\\w)(?=\\w)', ',', x, perl=TRUE))
 cSplit_f(df1, 2:ncol(df1), sep=',')
#   Marker ind1_1 ind1_2 ind2_1 ind2_2 ind3_1 ind3_2 ind4_1 ind4_2
#1:  mark1      C      T      T      T      C      T      T      T
#2:  mark2      A      G      A      A      A      G      A      A
#3:  mark3      A      C      A      A      A      C      A      A
#4:  mark4      C      T      T      T      C      T      T      T

正如@Ananda Mahto所建议的那样，cSplit 在处理大型数据集时可能更加高效，并且可以直接使用而无需更改分隔符。

cSplit(df1, names(df1)[-1], sep="", stripWhite = FALSE)
#   Marker ind1_1 ind1_2 ind2_1 ind2_2 ind3_1 ind3_2 ind4_1 ind4_2
#1:  mark1      C      T      T      T      C      T      T      T
#2:  mark2      A      G      A      A      A      G      A      A
#3:  mark3      A      C      A      A      A      C      A      A
#4:  mark4      C      T      T      T      C      T      T      T

或者使用 data.table 中的 tstrsplit

library(data.table)#v1.9.5+
setDT(df1)
cbind(Marker=df1$Marker,df1[, unlist(lapply(.SD, function(x)
        tstrsplit(x, '')), recursive=FALSE), .SDcols=-1])
#   Marker ind11 ind12 ind21 ind22 ind31 ind32 ind41 ind42
#1:  mark1     C     T     T     T     C     T     T     T
#2:  mark2     A     G     A     A     A     G     A     A
#3:  mark3     A     C     A     A     A     C     A     A
#4:  mark4     C     T     T     T     C     T     T     T

数据

df1 <- structure(list(Marker = c("mark1", "mark2", "mark3", "mark4"), 
ind1 = c("CT", "AG", "AC", "CT"), ind2 = c("TT", "AA", "AA", 
"TT"), ind3 = c("CT", "AG", "AC", "CT"), ind4 = c("TT", "AA", 
"AA", "TT")), .Names = c("Marker", "ind1", "ind2", "ind3", 
"ind4"), class = "data.frame", row.names = c(NA, -4L))

- akrun

为什么这里使用 cSplit_f 而不是 cSplit？速度快吗？ - Sam Firke

@cSplit 可以用于多列，根据 ?cSplit_f 的说明，这是“concat.split”函数族的一种变体，专门为大型矩形数据集设计。该函数利用“data.table”包中的‘fread’功能，可以非常快速地拆分数据的串联列。 - akrun

3

@SamFirke，我建议您使用cSplit(df1, names(df1)[-1], "", stripWhite = FALSE)，因为在使用cSplit_f时可能会出现内存问题，这是由于"data.table"预分配列的方式导致的，对于非常大的数据集来说尤其如此。 - A5C1D2H2I1M1N2O1R2T1

@AnandaMahto 我尝试了 cSplit_f(df1, names(df1)[-1], sep="", stripWhite = FALSE)，但是没有成功。 - akrun

4

不会的，这就是为什么我建议使用cSplit的原因。 - A5C1D2H2I1M1N2O1R2T1

0

> b <- as.data.frame(a[, 1])
> b[, 2] <- substr(a[, 2], 1, 1)
> b[, 3] <- substr(a[, 2], 2, 2)
> b[, 4] <- substr(a[, 3], 1, 1)
> b[, 5] <- substr(a[, 3], 2, 2)
> b[, 6] <- substr(a[, 4], 1, 1)
> b[, 7] <- substr(a[, 4], 2, 2)
> b[, 8] <- substr(a[, 5], 1, 1)
> b[, 9] <- substr(a[, 5], 2, 2)
> head(b)
  a[, 1] V2 V3 V4 V5 V6 V7 V8 V9
1  mark1  C  T  T  T  C  T  T  T
2  mark2  A  G  A  A  A  G  A  A
3  mark3  A  C  A  A  A  C  A  A
4  mark4  C  T  T  T  C  T  T  T
> dim(b)
[1] 4 9
> names(b) <- c("Marker", "ind1", "ind1","ind2", "ind2", "ind3", "ind3", "ind4", "ind4")
> head(b)
  Marker ind1 ind1 ind2 ind2 ind3 ind3 ind4
1  mark1    C    T    T    T    C    T    T
2  mark2    A    G    A    A    A    G    A
3  mark3    A    C    A    A    A    C    A
4  mark4    C    T    T    T    C    T    T
  ind4
1    T
2    A
3    A
4    T
>

你可以轻松地将其转换为循环，但由于列数相对较少，我没有这个需求。

要将其转换为循环，只需设置如下：

for(i in 2:ncol(a)){
}

- Hack-R

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Cath · Accepted Answer

我有这样的感觉，可能有点牵强，但:

test_split <- data.frame(Marker=test$Marker, 
                         do.call("cbind", lapply(apply(test[, -1], 2, strsplit, ""), 
                                                 function(x) do.call("rbind", x))), 
                         stringsAsFactors=F)
colnames(test_split)[-1] <- paste(rep(colnames(test)[-1], e=2), 1:2, sep="_")

test_split
#      Marker JRP4RA6119.039_1 JRP4RA6119.039_2 JRP4RA6124.029_1 JRP4RA6124.029_2 JRP4RA6133.051_1 JRP4RA6133.051_2 JRP4RA6125.009_1 JRP4RA6125.009_2
#1 s7e4419xxx                C                T                T                T                C                T                T                T
#2 s7e7001s01                A                G                A                A                A                G                A                A
#3 s7e3049xxx                A                C                A                A                A                C                A                A
#4 s7e4727xxx                C                T                T                T                C                T                T                T