27得票2回答
使用机器学习进行数据去重

我有一个问题,想用机器学习来解决,但不确定它是否适用于我的用例。 我有一个包含约1亿条记录的数据集,其中包括客户数据,包括姓名、地址、电子邮件、电话等,希望找到一种清理客户数据并识别可能重复的数据的方法。 大部分数据是使用外部系统手动输入的,没有经过验证,因此我们的许多客户在我们的数据库中...

20得票2回答
如何将机器学习应用于模糊匹配

假设我有一个主数据管理(MDM)系统,其主要应用是检测和防止记录重复。 每当销售代表在系统中输入新客户时,我的MDM平台会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数并输出相似度分数等。 这是您典型的模糊匹配场景。 ...

20得票6回答
少于指数时间的模糊匹配去重?

我有一个庞大的数据库(可能有数百万条记录),其中包含相对较短的文本字符串(例如街道地址、姓名等)。 我正在寻找一种策略来删除不精确的重复项,模糊匹配似乎是最佳选择的方法。问题在于:许多文章和Stack Overflow问题处理将单个字符串与数据库中的所有记录进行匹配。我希望一次性对整个数据库...

7得票3回答
大量联系人的数据去重算法

我正在开发一个应用程序,它必须能够在存储在SQL Server数据库中的数十万个联系人信息中查找和合并重复项。我必须比较表中的所有列,每个列都有一个权重值。比较必须基于权重值进行。根据比较结果和等价度,我必须决定自动合并联系人还是请求用户注意。我知道有许多模糊逻辑算法可用于去重。 请参阅ht...

7得票2回答
多列信息的模糊记录匹配

我有一个问题,涉及到整合不同的数据集和引用相同实体(通常是公司或金融证券)的头信息。这个记录链接通常涉及到头信息,其中名称是唯一的主要标识符,但通常会提供一些次要信息(例如城市和州、运营日期、相对规模等)。这些匹配通常是一对多的,但也可能是一对一甚至多对多的。我通常通过手工或基本文本比较已清理...