得票数最多 'record-linkage' 问题

关联标签

27得票2回答

使用机器学习进行数据去重

我有一个问题，想用机器学习来解决，但不确定它是否适用于我的用例。我有一个包含约1亿条记录的数据集，其中包括客户数据，包括姓名、地址、电子邮件、电话等，希望找到一种清理客户数据并识别可能重复的数据的方法。大部分数据是使用外部系统手动输入的，没有经过验证，因此我们的许多客户在我们的数据库中...

machine-learningduplicatesmahoutrecommendation-enginerecord-linkage

20得票2回答

如何将机器学习应用于模糊匹配

假设我有一个主数据管理（MDM）系统，其主要应用是检测和防止记录重复。每当销售代表在系统中输入新客户时，我的MDM平台会对现有记录进行检查，计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离，考虑权重和系数并输出相似度分数等。这是您典型的模糊匹配场景。 ...

algorithmmachine-learningfuzzy-comparisonrecord-linkage

20得票6回答

少于指数时间的模糊匹配去重？

我有一个庞大的数据库（可能有数百万条记录），其中包含相对较短的文本字符串（例如街道地址、姓名等）。我正在寻找一种策略来删除不精确的重复项，模糊匹配似乎是最佳选择的方法。问题在于：许多文章和Stack Overflow问题处理将单个字符串与数据库中的所有记录进行匹配。我希望一次性对整个数据库...

algorithmduplicatestime-complexityfuzzyrecord-linkage

7得票3回答

大量联系人的数据去重算法

我正在开发一个应用程序，它必须能够在存储在SQL Server数据库中的数十万个联系人信息中查找和合并重复项。我必须比较表中的所有列，每个列都有一个权重值。比较必须基于权重值进行。根据比较结果和等价度，我必须决定自动合并联系人还是请求用户注意。我知道有许多模糊逻辑算法可用于去重。请参阅ht...

algorithmduplicatesfuzzy-logicrecord-linkage

7得票2回答

多列信息的模糊记录匹配

我有一个问题，涉及到整合不同的数据集和引用相同实体（通常是公司或金融证券）的头信息。这个记录链接通常涉及到头信息，其中名称是唯一的主要标识符，但通常会提供一些次要信息（例如城市和州、运营日期、相对规模等）。这些匹配通常是一对多的，但也可能是一对一甚至多对多的。我通常通过手工或基本文本比较已清理...

algorithmtheorystring-matchingfuzzy-comparisonrecord-linkage