10得票3回答
如何对相似的新闻文章进行分组/比较

在我创建的应用程序中,我想添加将新闻故事分组在一起的功能。 我想将来自不同来源的相同主题的新闻故事分组在一起。例如,来自CNN和MSNBC的有关XYZ的文章将位于同一组。我猜这是某种模糊逻辑比较。从技术角度来看,我该如何做到这一点?我有哪些选择?我们甚至还没有开始开发应用程序,因此我们在可以使...

7得票6回答
更好的模糊匹配性能?

我目前正在使用来自difflib的get_close_matches方法来迭代遍历一个由大约15,000个字符串组成的列表,以获得与另一个由大约15,000个字符串组成的列表最接近的匹配项: a=['blah','pie','apple'...] b=['jimbo','zomg','pie...

7得票4回答
q-gram近似匹配的优化

我有一个包含三百万人记录的表格,我想使用q-gram(例如姓氏)进行模糊匹配。我已经创建了一个2-gram的表格与此相关,但在这个数据量上搜索性能不佳(大约需要5分钟)。 我的两个问题如下: (1)您能否提出任何改进性能的方法,以避免进行表扫描(即必须计算搜索字符串和三百万个姓氏之间共同的q...

12得票1回答
使用模糊逻辑连接两个数据集

我正在尝试在R中对两个数据集进行模糊逻辑连接: 第一个数据集包含位置名称和名为config的列 第二个数据集包含位置名称以及需要汇总后才能加入第一个数据集的两个额外属性。 我想使用name列来连接这两个数据集。但是name列可能在任一数据集中具有附加或前导字符,或者是包含在较大单词中的...

52得票6回答
模糊正则表达式

在我的工作中,我已经成功地使用了近似字符串匹配算法,比如Damerau-Levenshtein距离,使我的代码更少受到拼写错误的影响。 现在我需要将字符串与简单的正则表达式进行匹配,例如 TV Schedule for \d\d (Jan|Feb|Mar|...) 。这意味着字符串 TV S...

9得票4回答
SQL和模糊比较

假设我们有一个People表格(姓名、姓氏、地址、社保号码等),我们想要查找与指定人A“非常相似”的所有行。我想实现一种模糊逻辑比较A和People表中的所有行的方法。将有几个模糊推理规则分别作用于几个列上(例如对于名字,有3个模糊规则;对于姓氏,有2个规则;对于地址,有5个规则)。 问题是...

10得票4回答
比较两个包含歌曲标题列表的文件最简单的方法

我有两个歌曲标题列表,分别存储在纯文本文件中,这些文件名是许可的歌词文件。我想检查较短列表标题(needle)是否在较长列表(haystack)中。脚本/应用程序应返回needle中不在haystack中的标题列表。 我更喜欢使用Python或shell脚本(BASH),或者只使用视觉差异程...

7得票2回答
多列信息的模糊记录匹配

我有一个问题,涉及到整合不同的数据集和引用相同实体(通常是公司或金融证券)的头信息。这个记录链接通常涉及到头信息,其中名称是唯一的主要标识符,但通常会提供一些次要信息(例如城市和州、运营日期、相对规模等)。这些匹配通常是一对多的,但也可能是一对一甚至多对多的。我通常通过手工或基本文本比较已清理...

42得票7回答
如何在两个数据集中模糊匹配字符串?

我一直在研究一种方法,可以基于一个不完整的字符串(比如公司名称)来合并两个数据集。过去,我不得不匹配两个非常混乱的列表,一个列表包含名称和财务信息,另一个列表包含名称和地址。两个列表都没有唯一的ID可以进行匹配!假设已经应用了数据清洗,并且可能存在拼写错误和插入错误。 到目前为止,AGREP...

12得票1回答
模糊匹配数字

我一直在使用Double Metaphone和Caverphone2进行字符串比较,对于姓名、地址等方面效果不错(Caverphone2对我来说效果最好)。但是当涉及到数字值(例如电话号码、IP地址、信用卡号码等)时,它们会产生太多的误报。 因此,我看了看Luhn和Verhoeff算法,它们...