如何将机器学习应用于模糊匹配

20

假设我有一个主数据管理(MDM)系统,其主要应用是检测和防止记录重复。

每当销售代表在系统中输入新客户时,我的MDM平台会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数并输出相似度分数等。

这是您典型的模糊匹配场景。

我想知道是否有意义应用机器学习技术来优化匹配输出,即找到最大准确度的重复项。

  • 优化属性的权重?
  • 通过预测匹配结果来增加算法置信度?
  • 学习匹配规则,否则我会将其配置到算法中?
  • 其他方面?

此外,这篇关于该主题的优秀答案也提到了,但我并不确定该人是否实际使用了ML。

此外,我认为加权模糊匹配已经是足够好的解决方案,甚至从财务角度来看也是如此,因为无论何时部署这样的MDM系统,您都必须进行一些分析和预处理,无论是手动编码匹配规则还是训练ML算法。

因此,我不确定增加ML是否代表了重要的价值主张。

欢迎分享您的想法。


1
我的直觉是,你所获得的渐进式收益并不足以证明这种努力。有趣的是,使用自然语言处理/理解来为可能的重复项提供额外的上下文信息,但这将是一个不小的项目! - ImDarrenG
1
如果您决定继续进行这个项目,需要注意的一件事是您任务的基本二元结果(匹配与不匹配),再加上可能存在的非平衡数据集(非匹配比匹配多)。您最终可能会得到一个看起来非常准确的机器,但实际上只是告诉您已知的信息。 - ImDarrenG
@fgregg:想知道你是否可以使用[tag:去重]而不是全新的[tag:记录链接]。看起来是相同的概念。 - Nathan Tuggy
@NathanTuggy,在我看来,大多数标记为去重的问题都是关于删除完全匹配的。你用于此的技术与记录链接相关的概率方法非常不同。 - fgregg
2个回答

8
使用机器学习的主要优点是节省时间。
如果给你足够的时间,你很可能可以手动调整权重并提出与你特定数据集非常匹配的规则。对于一个特定的数据集,自行制作的系统可能表现得很好,而机器学习方法可能很难超越它。
然而,手动创建一个良好的匹配系统可能需要数天时间。如果您使用现有的机器学习匹配工具(例如Dedupe),则可以在一小时内(包括设置时间)学习到好的权重和规则。
因此,如果您已经构建了一个在您的数据上表现良好的匹配系统,则可能没有必要研究机器学习。但是,如果这是一个新的数据项目,那么几乎肯定会值得尝试。

0
传统上,模糊记录匹配软件需要大量用户参与项目参数化和文书审核。用户要么需要提供各种输入参数和阈值,要么需要为机器学习提供匹配和非匹配的示例。在这两种情况下,成功分析需要相当的用户参与和专业知识。 使用无监督机器学习的主要价值在于让软件自动找出解决方案,无需用户参与。 至少有一种利用机器学习的模糊匹配软件,名为“ReMaDDer”:http://remaddersoft.wixsite.com/remadder

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接