7得票4回答
在data.table中创建新列时,如何引用整行数据?

我有一个拥有超过200个变量的data.table,所有变量都是二进制的。我想在其中创建一个新列,用于计算每行与参考向量之间的差异: #Example dt = data.table( "V1" = c(1,1,0,1,0,0,0,1,0,1,0,1,1,0,1,0), "V2" = c(0...

7得票1回答
使用fread读取带有双引号和错误转义字符的数据

我将尝试使用fread()函数从data.table包中加载一个大数据文件(约2000万行)。然而,有些行会导致很大的麻烦。 最小化示例: text.csv contains: id, text 1,"""Oops"",\""The"",""Georgia""" fre...

59得票2回答
何时应该使用setDT()而不是data.table()来创建data.table?

我很难理解setDT()函数的本质。在 Stack Overflow 上阅读代码时,经常遇到使用setDT()创建 data.table 的情况。当然,data.table()的使用是无处不在的。我感觉我已经很好地理解了data.table()的性质,但是setDT()的相关性却让我困惑。 ?...

9得票2回答
在R中,将特定日期列与日期范围/间隔结合的数据框进行范围连接。

虽然这个问题的细节当然与特定应用有关,但是在 Stack Overflow 的精神指导下,我会尽可能地让回答更通用!基本问题是,在一个数据框中具有特定日期,而另一个数据框具有日期范围时,如何按日期合并数据框。其次,该问题还要求如何处理给定变量的多个观察值,并将这些观察值包含在最终输出的数据框中...

17得票4回答
将带有dimnames的矩阵转换为长格式的数据框。

希望这里有一个简单的答案,但我无处可找。 我有一个带有行名称和列名称的数字矩阵:# 1 2 3 4 # a 6 7 8 9 # b 8 7 5 7 # c 8 5 4 1 # d 1 ...

11得票1回答
将简单的ggplot2代码转换为使用data.table

我的旧代码看起来像这样:library(ggplot2) gp<-ggplot(NULL,aes(x=Income)) gp<-gp+geom_density(data=dat$Male,color="blue") gp<-gp+geom_density(data=dat$F...

21得票2回答
数据表计算每行非缺失值的数量

我尝试计算每行不包含NA值的列数,并将该值放入该行的新列中。 示例数据:library(data.table) a = c(1,2,3,4,NA) b = c(6,NA,8,9,10) c = c(11,12,NA,14,15) d = data.table(a,b,c) > d ...

17得票4回答
如何在R中对行的子集进行数据变换

我在dplyr中尝试对行子集进行变异但出了问题。我使用链式命令%>%来表示: data <- data %>% filter(ColA == "ABC") %>% mutate(ColB = "XXXX") 这个方法运行良好,但问题在于我想选择整个原始表格,...

39得票5回答
knitr被data.table的`:=`赋值所迷惑

看起来 knitr 不明白 DT[, a:=1] 不应该在文档中输出 DT。有没有办法停止这种行为? knitr 文档示例: Data.Table Markdown ======================================================== Suppo...

9得票3回答
如何从data.table构建一个管道,再通过magrittr返回到data.table

我希望将data.table的流水线技术与magrittr的流水线技术结合起来。我可以从data.table到%>%,但是我不知道如何回到[][] data.table的流水线技术中。 以下是示例: > tbl = data.table(grp=c(1,1,1,2,2,2,3,3,3...