当我在 dplyr::mutate() 中比较列时,为什么应该使用 | 而不是 any()? 它们为什么会返回不同的结果呢? 例如: library(tidyverse) df <- data_frame(x = rep(c(T,F,T), 4), y = rep(c(T,F,T...
我想做与这里相同的事情,但使用dplyr并选择一个额外的列。 我想通过字符串变量选择一列,但同时我也想正常选择第二列。我需要这样做是因为我有一个函数,根据给定参数选择几列。 以下是我的示例代码:library(dplyr) data(cars) x <- "speed" cars ...
我有一个使用dplyr分组的数据框,其中包含50个数值列,这些列根据其中一列分为不同的组。我想计算所有非分组列与特定列之间的相关矩阵。以下是使用mtcars数据集的示例:data(mtcars) cor(mtcars[,2:11], mtcars[,2]) 返回每加仑英里数与其他变量之间的相关...
目标 我的目标是定义一些函数,供在dplyr动词内使用,并使用预定义的变量。这是因为我有一些需要大量参数的函数,其中许多参数总是相同的变量名。 我的理解:这很困难(也许是不可能的),因为dplyr会延迟评估用户指定的变量,但任何默认参数都不在函数调用中,因此对于dplyr是不可见的。 玩...
我的数据是这样的:data("Titanic") df <- as.data.frame(Titanic) 我该如何取消聚合或反向汇总计数/频率并将数据集扩展回其原始的非计数观察状态? 例如,我希望在数据框中重复3rd, Male, Child, No 35次和1st, Female,...
我有一个示例数据集,其中一列的内容类似于:Candy Sanitizer Candy Water Cake Candy Ice Cream Gum Candy Coffee 我想做的是将其替换为只有两个因素 -“糖果”和“非糖果”。我可以使用Python/Pandas来实现,但似乎无法找到基于...
我想在data.frame的每个变量名前添加一个共同的前缀。例如,使用mtcars数据,我可以使用以下代码添加前缀"cars.":> data(mtcars) > names(mtcars) [1] "mpg" "cyl" "disp" "hp" "drat" "wt" ...
使用dplyr时,tbl_df函数会打印一条声明,表明数据框是“本地”的: > mtcars %>% + group_by(gear) Source: local data frame [32 x 11] Groups: gear mpg cyl ... 1...
这个问题在dplyr的Github repo上已经有了几个讨论,还有至少一个相关的Stack Overflow问题,但它们都没能完全回答我的问题——我想。 在dplyr的mutate中添加多列大致是我想要的,但那里只提供了一个特例的答案(tidyr::separate),似乎对我不适用。 ...