我希望能够加速以下代码。请有经验的人提出建议吗?Original Answer翻译成"最初的回答"。
顺便说一下,我尝试使用proxy::dist和其他各种方法都没有成功。我也不认为字符串距离函数的工作方式符合预期,但这是另一回事。最终,我想使用距离矩阵来执行一些聚类操作,以将相似的字符串(与单词顺序无关)分组。"Original Answer"(最初的回答)。
library(dplyr)
library(fuzzywuzzyR)
set.seed(42)
rm(list = ls())
options(scipen = 999)
init = FuzzMatcher$new()
data <- data.frame(string = c("hello world", "hello vorld", "hello world 1", "hello world", "hello world hello world"))
data$string <- as.character(data$string)
distance_function <- function(string_1, string_2) {
init$Token_set_ratio(string1 = string_1, string2 = string_2)
}
combinations <- combn(nrow(data), 2)
distances <- matrix(, nrow = 1, ncol = ncol(combinations))
distance_matrix <- matrix(NA, nrow = nrow(data), ncol = nrow(data), dimnames = list(data$string, data$string))
for (i in 1:ncol(combinations)) {
distance <- distance_function(data[combinations[1, i], 1], data[combinations[2, i], 1])
#print(data[combinations[1, i], 1])
#print(data[combinations[2, i], 1])
#print(distance)
distance_matrix[combinations[1, i], combinations[2, i]] <- distance
distance_matrix[combinations[2, i], combinations[1, i]] <- distance
}
distance_matrix
顺便说一下,我尝试使用proxy::dist和其他各种方法都没有成功。我也不认为字符串距离函数的工作方式符合预期,但这是另一回事。最终,我想使用距离矩阵来执行一些聚类操作,以将相似的字符串(与单词顺序无关)分组。"Original Answer"(最初的回答)。
distance_function
占用了大量时间,那么在当前的设置下可能会比较困难。 - akrunprofvis
来进行性能分析。在这里查看详细信息:链接。 - akrunproxy::dist
对你来说仍然太慢,那么你可能需要在C或C++中实现自己的函数。我最近展示了一个使用地理距离的多线程示例,但你可以调整它以支持字符串并输出完整的矩阵。还可以参考这个示例。 - Alexis