232得票12回答
模糊字符串比较的好用Python模块?

我正在寻找一个Python模块,可以进行简单的模糊字符串比较。具体来说,我想知道这些字符串相似程度的百分比。我知道这可能是主观的,因此我希望找到一个库,可以进行位置比较以及最长相似字符串匹配等功能。 基本上,我希望找到一个足够简单的东西,可以产生一个单一的百分比,同时又可以配置足够灵活,以便...

91得票4回答
模糊字符串比较

我正在努力完成一个程序,它会读入一个文件,并将每个句子与原句进行比较。与原始句子完全匹配的句子将获得1分,而与原始句子完全相反的句子将获得0分。其他模糊的句子将获得介于1和0之间的分数。 我不确定应该使用哪种操作来在Python 3中完成此操作。 我已经包含了样本文本,其中Text 1是原...

52得票6回答
模糊正则表达式

在我的工作中,我已经成功地使用了近似字符串匹配算法,比如Damerau-Levenshtein距离,使我的代码更少受到拼写错误的影响。 现在我需要将字符串与简单的正则表达式进行匹配,例如 TV Schedule for \d\d (Jan|Feb|Mar|...) 。这意味着字符串 TV S...

50得票4回答
寻找近似重复记录的技术

我试图清理一个数据库,多年来它已经积累了许多重复记录,名称略有不同。例如,在公司表中,存在像"Some Company Limited"和"SOME COMPANY LTD!"这样的名称。 我的计划是将问题表导出到R中,将名称转换为小写,替换常见的同义词(如"limited"->"ltd")...

42得票7回答
如何在两个数据集中模糊匹配字符串?

我一直在研究一种方法,可以基于一个不完整的字符串(比如公司名称)来合并两个数据集。过去,我不得不匹配两个非常混乱的列表,一个列表包含名称和财务信息,另一个列表包含名称和地址。两个列表都没有唯一的ID可以进行匹配!假设已经应用了数据清洗,并且可能存在拼写错误和插入错误。 到目前为止,AGREP...

30得票10回答
模糊正则表达式

我正在寻找一种使用正则表达式进行模糊匹配的方法。我想使用Perl,但如果有人能推荐任何可以做到这一点的方式,那将很有帮助。 例如,我想在一个由PDF的OCR生成的文本中匹配包含以两位数字开头的“纽约”单词的字符串。困难在于我想进行模糊匹配。我希望匹配:12 New York 24 Hew Y...

21得票5回答
如何识别稍微修改过的图片?

我有一个非常大的JPEG图像数据库,大约有200万张。 我想在这些图像中进行模糊搜索以查找重复图像。 重复图像是指两个图像具有许多(大约一半)像素具有相同值,其余像素的R / G / B值相差约+/-3。 肉眼无法区分这些图像。 这是重新压缩JPEG所产生的差异。 我已经有一种绝对可靠的方法...

20得票2回答
如何将机器学习应用于模糊匹配

假设我有一个主数据管理(MDM)系统,其主要应用是检测和防止记录重复。 每当销售代表在系统中输入新客户时,我的MDM平台会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数并输出相似度分数等。 这是您典型的模糊匹配场景。 ...

18得票1回答
Elasticsearch模糊匹配中的max_expansions和min_similarity是什么?

我正在项目中使用模糊匹配主要是为了查找拼写错误和同一名称的不同拼写。我需要准确地了解Elasticsearch的模糊匹配是如何工作以及它如何使用标题中提到的两个参数。 据我了解,min_similarity是查询字符串与数据库中字符串匹配的百分比。我没有找到关于如何计算此值的精确描述。 据...

14得票1回答
R中的模糊匹配

我正在尝试在一个开放的文本字段(即:混乱的!)和一组名称向量之间检测匹配项。我创建了一个愚蠢的水果示例来突出我的主要挑战。 我正在尝试将含有杂乱信息的开放文本字段与一组名称向量进行匹配。我创建了一个简单的水果示例,以突显我的主要挑战。df1 <- data.frame(id = c(1...