我正在开发一个应用程序,它必须能够在存储在SQL Server数据库中的数十万个联系人信息中查找和合并重复项。我必须比较表中的所有列,每个列都有一个权重值。比较必须基于权重值进行。根据比较结果和等价度,我必须决定自动合并联系人还是请求用户注意。我知道有许多模糊逻辑算法可用于去重。
请参阅http://www.melissadata.com/中的N-gram或Q-gram算法。这种算法对于大型数据集是否可行?如果不行,可以指导我使用哪些算法或从哪里开始吗?
以下是我想要实现的示例:
请参阅http://www.melissadata.com/中的N-gram或Q-gram算法。这种算法对于大型数据集是否可行?如果不行,可以指导我使用哪些算法或从哪里开始吗?
以下是我想要实现的示例:
Gonzales = Gonzalez (two different spelling of different name)
Smith = Smyth (Phonetic sound the same)
123 Main st = 123 Main street (abbrevation)
Bob Smith = Robert Smith (synonym)