9得票2回答
使用Python/PIL比较(相似的)图像

我正在尝试使用Python 2.6和PIL计算两个图像的相似度(即Levenshtein距离)。 我计划使用python-levenshtein库进行快速比较。 主要问题: 有什么好的比较图像的策略吗?我的想法是: 将图像转换为RGB格式(透明 -> 白色)(或者可能转换为单色...

9得票4回答
SQL和模糊比较

假设我们有一个People表格(姓名、姓氏、地址、社保号码等),我们想要查找与指定人A“非常相似”的所有行。我想实现一种模糊逻辑比较A和People表中的所有行的方法。将有几个模糊推理规则分别作用于几个列上(例如对于名字,有3个模糊规则;对于姓氏,有2个规则;对于地址,有5个规则)。 问题是...

9得票3回答
快速匹配带有打字错误的字符串的方法

我有一个巨大的字符串列表(城市名称),即使用户输入错误,我也想找到城市的名称。 例子 用户输入“chcago”,系统会找到“芝加哥” 当然,我可以计算查询字符串与列表中所有字符串的Levenshtein距离,但这样做速度非常慢。 有没有更有效的方法来执行这种字符串匹配?

9得票2回答
使用stringdist_join()在R中进行模糊连接,出现错误:不允许在下标分配中使用NAs。

首先,如果我的格式不好,请见谅。这是我第一次发帖,也是我刚接触编程和R语言。 我正在尝试将两个数据框根据字符串变量合并在一起。我正在合并大学名称,它们可能不完全匹配,所以我希望使用模糊或近似字符串匹配函数进行合并。当我找到“fuzzyjoin”包时,我很高兴。 来自cranR: st...

8得票4回答
Python中的规范URL比较?

有没有Python工具可以进行URL比较? 例如,如果我有http://google.com和google.com/,我想知道它们可能是同一个站点。 如果我要手动构建规则,我可能会将其大写,然后剥离http://部分,并且删除最后一个字母数字字符之后的任何内容。但是我也能看到这种方法的失败...

7得票3回答
如何找到大字符串中最佳匹配的子序列?

假设我有一个大字符串和一个子字符串数组,当它们被拼接起来时,就能得到这个大字符串(可能存在细微的差异)。 例如(请注意字符串之间的细微差别): large_str = "hello, this is a long string, that may be made up of multipl...

7得票1回答
如何在R中使用fuzzyjoin::difference_*进行模糊连接

我正在处理两个不同的数据集,希望根据阈值将它们合并。假设两个数据框看起来像这样: library(dplyr) library(fuzzyjoin) library(lubridate) df1 = data_frame(Item=1:5, DateTi...

7得票6回答
更好的模糊匹配性能?

我目前正在使用来自difflib的get_close_matches方法来迭代遍历一个由大约15,000个字符串组成的列表,以获得与另一个由大约15,000个字符串组成的列表最接近的匹配项: a=['blah','pie','apple'...] b=['jimbo','zomg','pie...

7得票2回答
多列信息的模糊记录匹配

我有一个问题,涉及到整合不同的数据集和引用相同实体(通常是公司或金融证券)的头信息。这个记录链接通常涉及到头信息,其中名称是唯一的主要标识符,但通常会提供一些次要信息(例如城市和州、运营日期、相对规模等)。这些匹配通常是一对多的,但也可能是一对一甚至多对多的。我通常通过手工或基本文本比较已清理...

7得票4回答
q-gram近似匹配的优化

我有一个包含三百万人记录的表格,我想使用q-gram(例如姓氏)进行模糊匹配。我已经创建了一个2-gram的表格与此相关,但在这个数据量上搜索性能不佳(大约需要5分钟)。 我的两个问题如下: (1)您能否提出任何改进性能的方法,以避免进行表扫描(即必须计算搜索字符串和三百万个姓氏之间共同的q...