当你在处理数据库时,如何使用dplyr进行非标准连接('col1' != 'col2')
?
示例:
设置数据库:
library(dplyr)
con <- DBI::dbConnect(RSQLite::SQLite(), ":memory:")
tableA <- data.frame(col1= c("a","b","c","d"),
col2 = c(1,2,3,4))
copy_to(con, tableA)
在使用数据库时,我想使用dplyr代码进行sql连接,以下是要执行的sql代码:
SQL代码:
tbl(con, sql("select a.col1, b.col2
from
tableA as a
inner join
tableA as b
on a.col1 <> b.col1")) %>%
arrange(col1, col2)
结果:
# Source: SQL [?? x 2]
# Database: sqlite 3.19.3 [:memory:]
# Ordered by: col1, col2
col1 col2
<chr> <dbl
1 a 2
2 a 3
3 a 4
4 b 1
5 b 3
6 b 4
7 c 1
8 c 2
9 c 4
10 d 1
# ... with more rows
dplyr代码:
这是我试图重建上面SQL代码时尝试的初始dplyr代码:
tbl(con,"tableA")->dbtableA
dbtableA %>%
inner_join(dbtableA, by = c('col1' != 'col1')) %>%
select(col1, col2=col2.x) %>%
arrange(col1, col2)
错误:
by
必须是(命名的)字符向量、列表或自然连接的NULL(不建议在生产代码中使用),而不是逻辑值
尝试使用tidyr包解决此问题时,我收到了一个错误消息(如下所示):
library(tidyr)
dbtableA %>%
expand(col1,col2) %>%
left_join(dbtableA, by = 'col1') %>%
filter(col2.x != col2.y) %>%
select(col1, col2 = col2.x) %>%
arrange(col1, col2)
错误:使用方法("expand_")时出错: 没有适用于类"c('tbl_dbi', 'tbl_sql', 'tbl_lazy', 'tbl')"的对象的'expand_'方法
当使用数据库时,有人知道如何编写dplyr代码进行此连接吗?非常感谢。