得票数最多 'fuzzy-comparison' 问题 - 第3页

关联标签

9得票2回答

使用Python/PIL比较（相似的）图像

我正在尝试使用Python 2.6和PIL计算两个图像的相似度（即Levenshtein距离）。我计划使用python-levenshtein库进行快速比较。主要问题：有什么好的比较图像的策略吗？我的想法是：将图像转换为RGB格式（透明 -> 白色）（或者可能转换为单色...

pythonpython-imaging-libraryfuzzy-logicfuzzy-comparison

9得票4回答

SQL和模糊比较

假设我们有一个People表格（姓名、姓氏、地址、社保号码等），我们想要查找与指定人A“非常相似”的所有行。我想实现一种模糊逻辑比较A和People表中的所有行的方法。将有几个模糊推理规则分别作用于几个列上（例如对于名字，有3个模糊规则；对于姓氏，有2个规则；对于地址，有5个规则）。问题是...

mysqlsqlselectfuzzy-logicfuzzy-comparison

9得票3回答

快速匹配带有打字错误的字符串的方法

我有一个巨大的字符串列表（城市名称），即使用户输入错误，我也想找到城市的名称。例子用户输入“chcago”，系统会找到“芝加哥” 当然，我可以计算查询字符串与列表中所有字符串的Levenshtein距离，但这样做速度非常慢。有没有更有效的方法来执行这种字符串匹配？

stringalgorithmperformancematchfuzzy-comparison

9得票2回答

使用stringdist_join()在R中进行模糊连接，出现错误：不允许在下标分配中使用NAs。

首先，如果我的格式不好，请见谅。这是我第一次发帖，也是我刚接触编程和R语言。我正在尝试将两个数据框根据字符串变量合并在一起。我正在合并大学名称，它们可能不完全匹配，所以我希望使用模糊或近似字符串匹配函数进行合并。当我找到“fuzzyjoin”包时，我很高兴。来自cranR： st...

rdplyrmergefuzzy-comparisonfuzzyjoin

8得票4回答

Python中的规范URL比较？

有没有Python工具可以进行URL比较？例如，如果我有http://google.com和google.com/，我想知道它们可能是同一个站点。如果我要手动构建规则，我可能会将其大写，然后剥离http://部分，并且删除最后一个字母数字字符之后的任何内容。但是我也能看到这种方法的失败...

pythonfuzzy-comparison

7得票3回答

如何找到大字符串中最佳匹配的子序列？

假设我有一个大字符串和一个子字符串数组，当它们被拼接起来时，就能得到这个大字符串（可能存在细微的差异）。例如（请注意字符串之间的细微差别）： large_str = "hello, this is a long string, that may be made up of multipl...

pythonalgorithmlevenshtein-distancefuzzy-comparisonlcs

7得票1回答

如何在R中使用fuzzyjoin::difference_*进行模糊连接

我正在处理两个不同的数据集，希望根据阈值将它们合并。假设两个数据框看起来像这样： library(dplyr) library(fuzzyjoin) library(lubridate) df1 = data_frame(Item=1:5, DateTi...

rfuzzy-comparisonfuzzyjoin

7得票6回答

更好的模糊匹配性能？

我目前正在使用来自difflib的get_close_matches方法来迭代遍历一个由大约15,000个字符串组成的列表，以获得与另一个由大约15,000个字符串组成的列表最接近的匹配项： a=['blah','pie','apple'...] b=['jimbo','zomg','pie...

pythonperformancelevenshtein-distancefuzzy-comparisondifflib

7得票2回答

多列信息的模糊记录匹配

我有一个问题，涉及到整合不同的数据集和引用相同实体（通常是公司或金融证券）的头信息。这个记录链接通常涉及到头信息，其中名称是唯一的主要标识符，但通常会提供一些次要信息（例如城市和州、运营日期、相对规模等）。这些匹配通常是一对多的，但也可能是一对一甚至多对多的。我通常通过手工或基本文本比较已清理...

algorithmtheorystring-matchingfuzzy-comparisonrecord-linkage

7得票4回答

q-gram近似匹配的优化

我有一个包含三百万人记录的表格，我想使用q-gram（例如姓氏）进行模糊匹配。我已经创建了一个2-gram的表格与此相关，但在这个数据量上搜索性能不佳（大约需要5分钟）。我的两个问题如下：（1）您能否提出任何改进性能的方法，以避免进行表扫描（即必须计算搜索字符串和三百万个姓氏之间共同的q...

sqlsql-serverfuzzy-searchfuzzy-comparison