如何将机器学习应用于模糊匹配

Question

如何将机器学习应用于模糊匹配

algorithmmachine-learningfuzzy-comparisonrecord-linkage

20

假设我有一个主数据管理（MDM）系统，其主要应用是检测和防止记录重复。

每当销售代表在系统中输入新客户时，我的MDM平台会对现有记录进行检查，计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离，考虑权重和系数并输出相似度分数等。

这是您典型的模糊匹配场景。

我想知道是否有意义应用机器学习技术来优化匹配输出，即找到最大准确度的重复项。

优化属性的权重？
通过预测匹配结果来增加算法置信度？
学习匹配规则，否则我会将其配置到算法中？
其他方面？

此外，这篇关于该主题的优秀答案也提到了，但我并不确定该人是否实际使用了ML。

此外，我认为加权模糊匹配已经是足够好的解决方案，甚至从财务角度来看也是如此，因为无论何时部署这样的MDM系统，您都必须进行一些分析和预处理，无论是手动编码匹配规则还是训练ML算法。

因此，我不确定增加ML是否代表了重要的价值主张。

欢迎分享您的想法。

- blackgreen

1

我的直觉是，你所获得的渐进式收益并不足以证明这种努力。有趣的是，使用自然语言处理/理解来为可能的重复项提供额外的上下文信息，但这将是一个不小的项目！ - ImDarrenG

1

如果您决定继续进行这个项目，需要注意的一件事是您任务的基本二元结果（匹配与不匹配），再加上可能存在的非平衡数据集（非匹配比匹配多）。您最终可能会得到一个看起来非常准确的机器，但实际上只是告诉您已知的信息。 - ImDarrenG

@fgregg：想知道你是否可以使用[tag:去重]而不是全新的[tag:记录链接]。看起来是相同的概念。 - Nathan Tuggy

@NathanTuggy，在我看来，大多数标记为去重的问题都是关于删除完全匹配的。你用于此的技术与记录链接相关的概率方法非常不同。 - fgregg

2个回答

0

传统上，模糊记录匹配软件需要大量用户参与项目参数化和文书审核。用户要么需要提供各种输入参数和阈值，要么需要为机器学习提供匹配和非匹配的示例。在这两种情况下，成功分析需要相当的用户参与和专业知识。使用无监督机器学习的主要价值在于让软件自动找出解决方案，无需用户参与。至少有一种利用机器学习的模糊匹配软件，名为“ReMaDDer”：http://remaddersoft.wixsite.com/remadder

- zlatko

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- fgregg · Accepted Answer

使用机器学习的主要优点是节省时间。

如果给你足够的时间，你很可能可以手动调整权重并提出与你特定数据集非常匹配的规则。对于一个特定的数据集，自行制作的系统可能表现得很好，而机器学习方法可能很难超越它。

然而，手动创建一个良好的匹配系统可能需要数天时间。如果您使用现有的机器学习匹配工具（例如Dedupe），则可以在一小时内（包括设置时间）学习到好的权重和规则。

因此，如果您已经构建了一个在您的数据上表现良好的匹配系统，则可能没有必要研究机器学习。但是，如果这是一个新的数据项目，那么几乎肯定会值得尝试。