将没有"timevar"的dataframe从长格式转换为宽格式，进行转置/重塑。

Question

将没有"timevar"的dataframe从长格式转换为宽格式，进行转置/重塑。

30

我有一个数据框，其遵循以下长模式：

   Name          MedName
  Name1    atenolol 25mg
  Name1     aspirin 81mg
  Name1 sildenafil 100mg
  Name2    atenolol 50mg
  Name2   enalapril 20mg

我想要以下格式的数据（我不介意列的名称是这样命名的，我只想以这种格式获取数据）：

   Name   medication1    medication2      medication3
  Name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
  Name2 atenolol 50mg enalapril 20mg             NA

我通过这个网站对reshape/reshape2包有了一些了解，并尝试了几次去让它运行，但目前为止都没有成功。

当我尝试使用dcast(dataframe, Name ~ MedName, value.var='MedName')时，我只会得到一堆药品名称的标志列（被转置的值是1或0），例如：

 Name  atenolol 25mg  aspirin 81mg
Name1              1             1
Name2              0             0

我也尝试了在将数据集融合后使用 dcast(dataset, Name ~ variable)，但这只会输出如下结果（只是计算每个人有多少种药物）：

 Name  MedName
Name1        3
name2        2

最后，我尝试了使用idvar="Name"和timevar="variable"（这两个变量都是Mednames），融合数据并进行重塑。然而，由于idvar有多个匹配项，重塑操作只会使用第一个MedName并忽略其余的。

有没有人知道如何使用reshape或其他R函数解决这个问题？我意识到可能可以使用一些for循环和条件语句来分割和重新拼接数据，但我希望能有更简单的解决方案。非常感谢！

- Hotamd6

9个回答

16

假设您的数据存储在对象dataset中：

library(plyr)
## Add a medication index
data_with_index <- ddply(dataset, .(Name), mutate, 
                         index = paste0('medication', 1:length(Name)))    
dcast(data_with_index, Name ~ index, value.var = 'MedName')

##    Name   medication1    medication2      medication3
## 1 Name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
## 2 Name2 atenolol 50mg enalapril 20mg             <NA>

- mnel

1

这个解决方案有一个小问题。当列数超过10时，它会以奇怪的方式排序。例如，会按照medication1,medication10,medication11,medication12,...,medication2的顺序排列。如何解决排序问题？ - Cina

15

在使用 reshape 之前，您可以始终生成一个唯一的 timevar。在这里，我使用 ave 对每个“名称”应用函数 seq_along。

test <- data.frame(
Name=c(rep("name1",3),rep("name2",2)),
MedName=c("atenolol 25mg","aspirin 81mg","sildenafil 100mg",
          "atenolol 50mg","enalapril 20mg")
)

# generate the 'timevar'
test$uniqid <- with(test, ave(as.character(Name), Name, FUN = seq_along))

# reshape!
reshape(test, idvar = "Name", timevar = "uniqid", direction = "wide")

结果：

   Name     MedName.1      MedName.2        MedName.3
1 name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
4 name2 atenolol 50mg enalapril 20mg             <NA>

- thelatemail

谢谢您的帮助，这个方法很有效。我的一个担心是关于列的问题，在我的实际数据集中，我有一个不断变化的药物名称和数量，因此声明MedName=c(所有名称)可能会有点困难，但我非常感谢您的帮助，并且将来可能会在其他问题上使用这种方法。 - Hotamd6

@Hotamd6 - 无需手动指定所有名称 - 您可以在数据集名称上执行查找和替换，例如 gsub("MedName.","medication",names(reshapedtestdata),fixed=TRUE)，以获得与@mnel相同的结果。 - thelatemail

11

这似乎是一个相当普遍的问题，所以我在我的“splitstackshape”包中包括了一个名为getanID的函数。

它的作用如下：

library(splitstackshape)
getanID(test, "Name")
#     Name          MedName .id
# 1: name1    atenolol 25mg   1
# 2: name1     aspirin 81mg   2
# 3: name1 sildenafil 100mg   3
# 4: name2    atenolol 50mg   1
# 5: name2   enalapril 20mg   2

由于 "splitstackshape" 软件包自带 "data.table"，因此您可以使用 dcast.data.table 来完成和 @mnel 的示例相同的操作。

dcast.data.table(getanID(test, "Name"), Name ~ .id, value.var = "MedName")
#     Name             1              2                3
# 1: name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
# 2: name2 atenolol 50mg enalapril 20mg               NA

该函数基本上是通过识别的组实现了sequence(.N)，以创建"时间"列。

- A5C1D2H2I1M1N2O1R2T1

5

@thelatemail的解决方案与此类似。在生成时间变量时，我使用以防我不是在交互式工作并且Name变量需要动态更改。

# start with your example data
x <- 
    data.frame(
        Name=c(rep("name1",3),rep("name2",2)),
        MedName=c("atenolol 25mg","aspirin 81mg","sildenafil 100mg",
            "atenolol 50mg","enalapril 20mg")
    )

# pick the id variable
id <- 'Name'

# sort the data.frame by that variable
x <- x[ order( x[ , id ] ) , ]

# construct a `time` variable on the fly
x$time <- unlist( lapply( rle( as.character( x[ , id ] ) )$lengths , seq_len ) )

# `reshape` uses that new `time` column by default
y <- reshape( x , idvar = id , direction = 'wide' )

# done
y

- Anthony Damico

1

我不确定我理解你关于在“Name”变量需要动态时使用rle的评论。@thelatemail的解决方案难道也不会提供这种灵活性（而且无需先对数据进行排序）吗？ - A5C1D2H2I1M1N2O1R2T1

@AnandaMahto 也许你是对的..我想你可以使用 id <- 'Name'，然后在第二行中稍后使用 as.character(get(id))，然后其余部分就是动态的了。 - Anthony Damico

5

一种简洁的解决方法是使用版本为1.1.0的tidyr包中非常有用的pivot_wider函数。使用此函数，您还可以通过使用参数names_glue直接指定列名。

library(tidyr)
library(dplyr)

dataframe %>% 
  group_by(Name) %>% 
  mutate(row_n = row_number()) %>% 
  pivot_wider(id_cols = Name, names_from = row_n, values_from = MedName, names_glue = "medication{row_n}")

输出

# A tibble: 2 x 4
# Groups:   Name [2]
#   Name  medication1   medication2    medication3     
#   <chr> <chr>         <chr>          <chr>           
# 1 Name1 atenolol 25mg aspirin 81mg   sildenafil 100mg
# 2 Name2 atenolol 50mg enalapril 20mg NA

- Ric S

1

这里有一种更简短的方式，利用了 unlist 处理名称的方式：

library(dplyr)
df1 %>% group_by(Name) %>% do(as_tibble(t(unlist(.[2]))))
# # A tibble: 2 x 4
# # Groups:   Name [2]
#      Name      MedName1       MedName2         MedName3
#     <chr>         <chr>          <chr>            <chr>
#   1 name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
#   2 name2 atenolol 50mg enalapril 20mg             <NA>

- moodymudskipper

1

在base中，您可以使用split或unstack按Name拆分MedName。然后将每个列表元素的length设置为相同的长度，并rbind它们。

. <- split(x$MedName, x$Name)
#. <- unstack(x[2:1]) #Alternative

do.call(rbind, lapply(., `length<-`, max(lengths(.))))
#do.call(rbind, lapply(., "[", 1:max(lengths(.)))) #Alternative
#t(sapply(., "[", 1:max(lengths(.)))) #Alternative

#      [,1]            [,2]             [,3]              
#Name1 "atenolol 25mg" "aspirin 81mg"   "sildenafil 100mg"
#Name2 "atenolol 50mg" "enalapril 20mg" NA

请注意，结果是一个矩阵。如果需要数据框，请另外使用as.data.frame.matrix。

数据

x <- read.table(header=TRUE, text="
  Name          MedName
  Name1    'atenolol 25mg'
  Name1     'aspirin 81mg'
  Name1 'sildenafil 100mg'
  Name2    'atenolol 50mg'
  Name2   'enalapril 20mg'")

基准测试

bench::mark(check=FALSE,
Jaap1 = dcast(setDT(y), Name ~ rowid(Name, prefix = "medication"), value.var = "MedName"),
Jaap2 = x %>%  group_by(Name) %>%  mutate(rn = paste0("medication",row_number())) %>% spread(rn, MedName),
mnel = {data_with_index <- ddply(x, .(Name), mutate, index = paste0('medication', 1:length(Name)))    
  dcast(setDT(data_with_index), Name ~ index, value.var = 'MedName') },
thelatemail = reshape(within(x, uniqid <- ave(as.character(Name), Name, FUN = seq_along)), idvar = "Name", timevar = "uniqid", direction = "wide"),
a5c1d2h2i1m1n2o1r2t1 = dcast.data.table(getanID(y, "Name"), Name ~ .id, value.var = "MedName"),
"Anthony Damico" = {. <- x[order(x[, "Name"]),]
  .$time <- unlist( lapply( rle( as.character( .[ , "Name" ] ) )$lengths , seq_len ) )
  reshape( . , idvar = "Name" , direction = 'wide' ) },
"Ric S" = x %>%  group_by(Name) %>%  mutate(row_n = row_number()) %>% 
  pivot_wider(id_cols = Name, names_from = row_n, values_from = MedName, names_glue = "medication{row_n}"),
"Darren Tsai" = x %>% chop(-Name) %>% unnest_wider(MedName, names_sep = ""),
moodymudskipper = x %>% group_by(Name) %>% do(as_tibble(t(unlist(.[2])))),
GKi = {. <- split(x$MedName, x$Name)
  do.call(rbind, lapply(., "[", 1:max(lengths(.)))) },
GKi2 = {. <- split(x$MedName, x$Name)
  do.call(rbind, lapply(., `length<-`, max(lengths(.))))}
)

结果

   expression                min   median `itr/sec` mem_al…¹ gc/se…² n_itr  n_gc
   <bch:expr>           <bch:tm> <bch:tm>     <dbl> <bch:by>   <dbl> <int> <dbl>
 1 Jaap1                910.83µs    1.5ms     645.   274.5KB    8.32   310     4
 2 Jaap2                  9.64ms  11.53ms      86.9   16.5KB    9.15    38     4
 3 mnel                   4.69ms   5.91ms     164.   280.1KB    6.31    78     3
 4 thelatemail          619.74µs 898.36µs     959.        0B   12.6    458     6
 5 a5c1d2h2i1m1n2o1r2t1   1.36ms   2.18ms     426.   291.4KB    8.70   196     4
 6 Anthony Damico       565.34µs 794.76µs    1123.        0B   12.5    537     6
 7 Ric S                 13.51ms  15.59ms      62.4   64.2KB    6.69    28     3
 8 Darren Tsai            3.75ms   5.02ms     199.    22.7KB    8.54    93     4
 9 moodymudskipper       12.88ms  15.88ms      63.5   26.5KB    6.81    28     3
10 GKi                   31.58µs  35.73µs   21448.        0B   17.2   9992     8
11 GKi2                  29.41µs  32.77µs   23717.        0B   16.6   9993     7

在这种情况下，GKi大约比第二个快15倍，并且属于不分配额外内存的组。

- GKi

1

一种使用 chop() 和 unnest_wider() 的 tidyr 解决方案。

library(tidyr)

df %>%
  chop(-Name) %>%
  unnest_wider(MedName, names_sep = "")

# # A tibble: 2 x 4
#   Name  MedName1      MedName2       MedName3        
#   <chr> <chr>         <chr>          <chr>           
# 1 Name1 atenolol 25mg aspirin 81mg   sildenafil 100mg
# 2 Name2 atenolol 50mg enalapril 20mg NA

参数names_sep = ""是必需的；否则，新的列名将为..1、..2和..3。

数据

df <- structure(list(Name = c("Name1", "Name1", "Name1", "Name2", "Name2"
), MedName = c("atenolol 25mg", "aspirin 81mg", "sildenafil 100mg", 
"atenolol 50mg", "enalapril 20mg")), class = "data.frame", row.names = c(NA, -5L))

- Darren Tsai

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jaap · Accepted Answer

使用 data.table 包，这个问题可以很容易地通过新的 rowid 函数解决：

library(data.table)
dcast(setDT(d1), 
      Name ~ rowid(Name, prefix = "medication"), 
      value.var = "MedName")

这将会给出：

   Name    medication1     medication2       medication3
1 Name1  atenolol 25mg    aspirin 81mg  sildenafil 100mg
2 Name2  atenolol 50mg  enalapril 20mg              <NA>

另一种方法（通常在1.9.7版本之前使用）：

dcast(setDT(d1)[, rn := 1:.N, by = Name], 
      Name ~ paste0("medication",rn), 
      value.var = "MedName")

得到相同的结果。

使用dplyr和tidyr包的类似方法：

library(dplyr)
library(tidyr)
d1 %>%
  group_by(Name) %>%
  mutate(rn = paste0("medication",row_number())) %>%
  spread(rn, MedName)

这将给出：

Source: local data frame [2 x 4]
Groups: Name [2]

    Name   medication1    medication2      medication3
  (fctr)         (chr)          (chr)            (chr)
1  Name1 atenolol 25mg   aspirin 81mg sildenafil 100mg
2  Name2 atenolol 50mg enalapril 20mg               NA