使用data.table将宽格式转换为长格式,并涉及多个列。

12

我有一个宽格式的数据框,如下所示。 我想使用data.table的melt函数将宽格式转换为长格式。在简单的情况下,我可以将两个数据拆分,然后将两个数据集合并。 但在我的情况下,有多个test(i)testgr(i)列。但一定有更好和更有效的方法来做到这一点。谢谢。

to =>

我有一个宽格式的数据框,如下所示。我想使用data.table的melt函数将其转换为长格式。在简单的情况下,我可以拆分两个数据,然后将两个数据集合并。但在我的情况下,存在多个test(i)testgr(i)列。不过可能有更好和更有效的方法。谢谢。

id<-c("106E1258","106E2037","104E1182","105E1248","105E1470","10241247",
"10241703")
yr<-c(2017,2017,2015,2016,2016,2013,2013)
finalgr<-c(72,76,75,71,75,77,78)
test01<-c("R0560","R0066","R0308","R0129","R0354","R0483",  
"R0503")
test01gr<-c(73,74,67,80,64,80,70)
test02<-c("R0660","R0266","R0302","R0139","R0324","R0383"   ,
"R0503")
test02gr<-c(71,54,67,70,68,81,61)
dt<-data.frame(id=id,yr=yr,
finalgr=finalgr,
test01=test01,test01gr=test01gr,
test02=test02,test02gr=test02gr)
(这是一个无法独立翻译的代码片段,需要更多上下文才能确定其最终意义和用途)
id2<-c("106E1258","106E1258","104E1182","104E1182")
yr2<-c(2017,2017,2015,2015)
finalgr<-c(72,72,75,75)
testid<-c("R0560","R0660","R0308","R0302")
testgr<-c(73,71,67,67)
dt2<-data.frame(id=id2,yr=yr2,finalgr=finalgr,testid=testid,testgr=testgr)

你的例子看起来不完整? - MichaelChirico
1
一般来说,在您的示例中避免将 data.frame 命名为 "dt" 可能是一个好主意,因为大多数人都使用它作为 data.table 的示例名称。 - Mike H.
1个回答

20

确实应该使用melt

setDT(dt)
melt(dt, id.vars = c('id', 'yr', 'finalgr'), 
     measure.vars = list(testid = c('test01', 'test02'),
                         testgr = c('test01gr', 'test02gr')))
#           id   yr finalgr variable testid testgr
#  1: 106E1258 2017      72        1  R0560     73
#  2: 106E2037 2017      76        1  R0066     74
#  3: 104E1182 2015      75        1  R0308     67
#  4: 105E1248 2016      71        1  R0129     80
#  5: 105E1470 2016      75        1  R0354     64
#  6: 10241247 2013      77        1  R0483     80
#  7: 10241703 2013      78        1  R0503     70
#  8: 106E1258 2017      72        2  R0660     71
#  9: 106E2037 2017      76        2  R0266     54
# 10: 104E1182 2015      75        2  R0302     67
# 11: 105E1248 2016      71        2  R0139     70
# 12: 105E1470 2016      75        2  R0324     68
# 13: 10241247 2013      77        2  R0383     81
# 14: 10241703 2013      78        2  R0503     61

如果有更多的test列,你可以使用patterns

melt(dt, id.vars = c('id', 'yr', 'finalgr'), 
     measure.vars = patterns(testid = 'test[0-9]+$', testgr = 'test[0-9]+gr'))

1
注意:根据此帖子data.table::melt不会猜测新的variable列中因子的名称。但是,该列中的值似乎对应于measure.vars组中名称的顺序。因此,要获取名称,可以使用variable通过索引添加新列来缩小名称:dt[,names_column:=c('name1', 'name2')[variable]] - Naiky

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接