10得票1回答
快速检查大型数据库以获取编辑距离相似性。

我有一个包含350,000个字符串的数据库,平均长度约为500个字符。这些字符串不是由单词组成的,而是基本上是一组随机字符。 我需要确保没有两个字符串太相似,其中“相似性”定义为编辑距离除以字符串平均长度。分母是因为较小的字符串更容易接受较小的编辑距离。如果出于性能原因使用其他指标,则可以接...

10得票1回答
在ggplot2中更改x轴刻度之间的距离

目前,我正在制作一张三个观测值的折线图。因此,有三个x轴刻度。 我想手动减小x轴刻度之间的距离,基本上强制使观测值更加接近。换句话说,我想减小x轴刻度之间的距离。 我的数据: structure(list(Period = c("January 1997 - August 2003", ...

9得票1回答
有没有办法计算两个字符串之间的匹配度百分比?

有没有办法计算两个字符串之间的匹配度? 我有一个情况,需要计算两个字符串之间的匹配度,如果匹配度达到85%,那么我将合并这两个表。我已经编写了合并两个表的代码。 我的示例字符串是: var str1 = 'i love javascript'; var str2 = 'i love ja...

9得票5回答
我该如何计算两个点序列之间的“差异”?

我有两个长度为n和m的序列。每个序列都是形如(x,y)的点序列,代表图像中的曲线。我需要找出这些序列有多不同(或相似),考虑到以下事实: 1. 一个序列可能比另一个序列长(即一个序列可能只有另一个序列的一半或四分之一长,但如果它们大致跟踪相同的曲线,它们就是相同的)。 2. 这些序列可能是...

8得票1回答
CoffeeScript中的Levenshtein距离公式?

我正在尝试创建或查找Levenshtein Distance公式的CoffeeScript实现,也称为编辑距离。以下是我目前的进展情况,非常感谢任何帮助。 levenshtein = (s1,s2) -> n = s1.length m = s2.length ...

8得票1回答
字符串距离,仅计算置换

可能重复: 重复的问题: 计算将一个排列转换为另一个排列所需的交换次数 我正在寻找一种算法,它可以计算某种字符串距离,其中唯一允许的操作是交换两个相邻字符。例如: 字符串1:“mother” 字符串2:“moterh” 距离:2(首先将“h”与“e”交换并得到“motehr”,然后将“h...

8得票1回答
如何平衡BK树?是否必要?

我正在研究使用编辑距离算法在姓名数据库中实现模糊搜索。 我找到一种数据结构,据说可以通过分治方法加速 - Burkhard-Keller Trees。问题是我找不到关于这种特定类型的树的很多信息。 如果我用任意节点填充BK树,那么我出现平衡问题的可能性有多大? 如果BK树可能或很可能出现...

8得票2回答
Levenshtein距离和Wagner-Fischer算法有什么区别?

Levenshtein距离是一种用于衡量两个序列之间差异的字符串度量。Wagner-Fischer算法是一种动态规划算法,用于计算字符两个字符串之间的编辑距离。 两者都使用矩阵,我没有看到区别在哪里?区别在于回溯,还是因为一个是“文献”,另一个是编程而没有进一步的区别? 此外,我只是在写论...

8得票2回答
如何使用替换距离在R中比较两个字符串以找到匹配字符的数量?

在R语言中,我有两个字符向量a和b。 a <- c("abcdefg", "hijklmnop", "qrstuvwxyz") b <- c("abXdeXg", "hiXklXnoX", "Xrstuvwxyz") 我需要一个函数来计算a中每个元素与b中对应元素的字符不匹配...

7得票1回答
如何在简体中文字符上计算Levenshtein距离?

我有两个查询: query1:你好世界 query2:你好 当我使用Python库Levenshtein运行此代码时: from Levenshtein import distance, hamming, median lev_edit_dist = distance(...