我在SQL数据库中有约25,000个不同的名称,并希望对所有这些名称执行编辑距离比较,以便规范化例如John Doe和Jhon Doe等名称。
当数据库中仅有大约1000个名称时,我曾将所有不同的名称存储在一个数组中。然后,我会在该数组上使用两个for循环,从而将数组中的每个元素与其他元素进行比较。当编辑距离给出大于0.9的匹配时,我会执行SQL查询,在所有记录中用一个值替换另一个值。
由于我的数据库规模更大,这种方法已经不再可行。你们会怎么做?
附:我也想了解任何多线程解决方案,因为现在这个过程太慢了。
附:我正在使用Java编码。
当数据库中仅有大约1000个名称时,我曾将所有不同的名称存储在一个数组中。然后,我会在该数组上使用两个for循环,从而将数组中的每个元素与其他元素进行比较。当编辑距离给出大于0.9的匹配时,我会执行SQL查询,在所有记录中用一个值替换另一个值。
由于我的数据库规模更大,这种方法已经不再可行。你们会怎么做?
附:我也想了解任何多线程解决方案,因为现在这个过程太慢了。
附:我正在使用Java编码。