我希望在数据库中计算Jaro-Winkler字符串距离。如果我将数据导入R(使用
但我的数据非常大,我想在将数据导入R之前对Jaro-Winkler距离进行过滤。
collect
),我可以轻松使用stringdist
包中的stringdist
函数。但我的数据非常大,我想在将数据导入R之前对Jaro-Winkler距离进行过滤。
有Jaro-Winkler的SQL代码(https://androidaddicted.wordpress.com/2010/06/01/jaro-winkler-sql-code/和适用于T-SQL的版本),但我不确定如何最好地让该SQL代码与dbplyr
一起使用。我很乐意尝试将stringdist
函数映射到Jaro-Winkler sql
代码中,但我不知道从哪里开始。但即使是像直接在远程数据上从R执行SQL代码这样更简单的事情也会很棒。
我曾希望dbplyr
文档中的SQL翻译可以帮助,但我不认为会有所帮助。