13得票2回答
将数据按变量分区,加快使用stringdist进行“模糊匹配”的速度

我正在基于之前有关使用stringdist进行模糊匹配的问题所提供的答案进行构建。 我有两个大型数据集(约30k行),其中包含长字符串(消费品名称),我想通过生成距离分数来进行模糊匹配。这两个产品名称列表中预计会有一些重叠,但有些产品将是每个列表独有的。 这里的问题是:我的计算机无法处理如...

12得票3回答
如何基于相似度函数合并两个pandas数据框?

给定数据集1name,x,y st. peter,1,2 big university portland,3,4 和数据集2name,x,y saint peter3,4 uni portland,5,6 目标是合并d1.merge(d2, on="name", how="left") 虽然名...

12得票1回答
使用模糊逻辑连接两个数据集

我正在尝试在R中对两个数据集进行模糊逻辑连接: 第一个数据集包含位置名称和名为config的列 第二个数据集包含位置名称以及需要汇总后才能加入第一个数据集的两个额外属性。 我想使用name列来连接这两个数据集。但是name列可能在任一数据集中具有附加或前导字符,或者是包含在较大单词中的...

12得票7回答
使用笔画和模糊容差算法作为加密密钥

如何使用模糊容错进行加密/解密? 我想使用 InkCanvas 上的 Stroke 作为我的加密密钥,但在解密时用户不必绘制完全相同的符号,只需相似即可。这在 .NET C# 中可以实现吗? ---更新(9月9日)--- 理想情况下,我希望有一种加密算法,它可以接受某个基本密钥和一个定义...

12得票1回答
模糊匹配数字

我一直在使用Double Metaphone和Caverphone2进行字符串比较,对于姓名、地址等方面效果不错(Caverphone2对我来说效果最好)。但是当涉及到数字值(例如电话号码、IP地址、信用卡号码等)时,它们会产生太多的误报。 因此,我看了看Luhn和Verhoeff算法,它们...

11得票3回答
stringr::str_detect的模糊版本用于过滤数据框。

我有一个包含自由文本字段的数据库,我想使用它来过滤一个data.frame或者tibble。我可以创建所有可能的拼写错误列表,这些错误目前出现在数据中(请参见下面一个术语的所有拼写示例),然后我可以像下面示例代码中一样使用stringr::str_detect。但是,当将来可能存在更多的拼写错...

10得票4回答
比较两个包含歌曲标题列表的文件最简单的方法

我有两个歌曲标题列表,分别存储在纯文本文件中,这些文件名是许可的歌词文件。我想检查较短列表标题(needle)是否在较长列表(haystack)中。脚本/应用程序应返回needle中不在haystack中的标题列表。 我更喜欢使用Python或shell脚本(BASH),或者只使用视觉差异程...

10得票3回答
FuzzyWuzzy错误:警告:root:应用处理器将输入查询缩减为空字符串,所有比较得分都为0。 [查询:'/']

试图编写一段代码,它将比较多个文件并返回多个选项中最高模糊比率。 问题是我收到了一个错误消息: 警告:root:应用的处理器将输入查询缩小为空字符串,所有比较得分都将为0。 [查询:'/']警告:root:应用的处理器将输入查询缩小为空字符串,所有比较得分都将为0。 [查询:'.'] 导出的文...

10得票3回答
如何对相似的新闻文章进行分组/比较

在我创建的应用程序中,我想添加将新闻故事分组在一起的功能。 我想将来自不同来源的相同主题的新闻故事分组在一起。例如,来自CNN和MSNBC的有关XYZ的文章将位于同一组。我猜这是某种模糊逻辑比较。从技术角度来看,我该如何做到这一点?我有哪些选择?我们甚至还没有开始开发应用程序,因此我们在可以使...

10得票2回答
使用MinHash寻找2张图片之间的相似性。

我正在使用MinHash算法来查找图片之间的相似程度。 我遇到了这篇文章:如何识别轻微修改的图像?,其中指向了MinHash算法。 我使用了此博客文章中的C#实现:集合相似性和MinHash。 但是在尝试使用该实现时,我遇到了2个问题。 我应该将universe值设置为多少? 将图像...